随着社会的进步,科学技术的不断发展,信息技术成了目前最受关注,也是发展最快的科学技术。世界各国都在致力于信息化,而各国对于信息化的巨大需求又反过来不断促进信息技术的革新,可以说,我们已经进入了信息时代。数据的密集爆发是信息时代的重要特征之一,更令人惊讶的是,这种数据的变化并不是一个循序渐进的过程,而是一个跨越式的过程。我们的社会已经被各种各样的庞杂的数据围绕了,可以看出,大数据时代已经来临了。
大数据(big data),是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据也是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。大数据,其影响除了经济方面的,它同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术,七分数据,得数据者得天下。
大数据的出现,使得通过数据分析获得知识、商机和社会服务的能力从以往局限于少数象牙塔之中的学术精英圈子扩大到了普通的机构、企业和政府部门。门槛的降低直接导致了数据的容错率提高和成本的降低,但正如专家维克托所强调的,最重要的是人们可以在很大程度上从对于因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。只要发现了两个现象之间存在的显著相关性,就可以创造巨大的经济或社会效益,而弄清二者为什么相关可以留待学者们慢慢研究。大数据之所以可能成为一个“时代”,在很大程度上是因为这是一个可以由社会各界广泛参与,八面出击,处处结果的社会运动,而不仅仅是少数专家学者的研究对象。同时大量的数据也为研究和利用带来了前所未有的困难。
当前,对大数据的处理分析正成为新一代信息技术融合应用的节点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。大数据也是信息产业持续高速增长的新引擎。面对大数据市场的新技术、新产品、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变为“数据驱动”。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。