当今社会是一个信息化社会的时代,同时又是一个大数据时代。随着互联网、物联网、云计算和人工智能等信息技术和计算机产业的不断发展和进步,使得数据的处理成为一个亟待解决的问题。因此在大数据的背景下,如何高效地从大量包含有用数据的库获得有用信息已成为企业和科研工作重点关注的点,而这一工作涉及的关键技术就是数据挖掘技术。总得说,数据处理的需要既给数据挖掘技术带来了机遇,于此同时带来了一系列的挑战。
数据挖掘简单的说就是一个从大量、不完全、有干扰和随机的数据库中去获取隐藏在它们当中的、我们事先不知道的、但是包含大量潜在的有用信息和知识的过程。它是能够实现智能化和自动地把数据转变成有用信息和知识的一种技术和辅助工具,又是我们对数据库技术进行研究和改善的结果。数据挖掘,它又是一门非常广义的交叉学科, 它汇聚了各个不同领域的研究人员, 特别是数据库、人工智能、数理统计、可视化、并行计算等相关方面的专家和技术人员。
数据挖掘的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析,在当今数据和内容作为互联网的核心,不论是传统行业还是新型行业,谁率先与互联网融合成功,能够从大数据的金矿中发现暗藏的规律,就能够抢占先机,成为技术改革的标志,获得利益。常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务。大数据挖掘商业价值的方法主要分为四种:第一:客户群体细分,然后为每个群体量定制特别的服务。第二:模拟现实环境,发掘新的需求同时提高投资的回报率。第三:加强部门联系,提高整条管理链条和产业链条的效率。第四:降低服务成本,发现隐藏线索进行产品和服务的创新。在理论上来看:所有产业都会在数据挖掘的发展中受益。
大数据时代的到来意味着我们在应用和利用数字信息技术的同时,需要花费比较多的人力、物力和财力去删选、存储以及利用建立起来的大数据库。比方说,在一个银行系统中,每天会有数以万计的银行运转和ATM终端产生的庞大交易数据,那么他们需要解决的问题是如何从这样一个庞大的数据库中去筛选、分类和聚类并获得有价值的数据;而这正是数据挖掘要解决的问题,所以说在当下的大数据时代背景下,数据挖掘的作用其他技术不可替代的。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。