当前世界依然迎来了大数据时代,随着多媒体等多种技术的应用,社会中的相关领域时刻都涌现大量的数据,增加了技术处理以及分析的难度。通常情况下大数据具有复杂性,而且还具有数量大、分布式的特点,这样就必须要采取新的技术方法对数据进行处理,因此智能分析技术在数据的处理中具有非常重要的意义。
虽然在大数据时代传统的智能数据分析法已经不能适应当前的需求,但是依然有一定的相似性,相关理论和技术依然可以沿用,几种常见数据分析法:
第一种方法是决策树。这种数据分析方法需要基于信息论基础上,这种方法实现的输出结果容易理解,精确度较高,效率也较快,但是它不能用来对复杂的数据进行处理与分析。
第二种方法是关联规则。这种方法主要是用于事物数据库中,通常带有大量的数据,当今使用这种方法来削减搜索空间。
第三种方法是粗糙集。这种数据分析方法能够对数据进行主观评价,只要通过观测数据,就可以清除冗余的信息。
第四种方法是模糊数学分析。这种数据分析方法能够对实际问题进行模糊的分析,与其他的分析方法相比,能够取得更为客观的效果。
第五种方法是人工神经网络。这种数据分析方法具有自学习功能,在此基础上还具有联想存储的功能。
第六种方法是混沌和分形理论。这两种理论主要是用来对自然社会中存在的现象进行解释,一般用来进行智能认知研究,还能应用于自动控制等众多领域中。
第七种方法是自然计算分析方法。这种数据分析方法根据不同生物层面的模拟与仿真,通常可以分为以下三种不同类型的分析方法:一是群体智能算法,二是免疫算法,三是DNA算法。群体智能主要是对集体行为进行研究,免疫算法具有多样性,经典的主要有反向、克隆选择等,而DNA算法主要使属于随机化搜索方法,它可以进行全局寻优,在实际的运用中一般都能获取优化的搜索空间,在此基础上还能自动调整搜索方向,在整个过程中都不需要确定的规则。
当前大数据分析挖掘的技术已经普遍应用于多种行业中,而NLPIR大数据语义智能分析技术是使用效果比较好的技术,并取得了不错的成效。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。