随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的,这就导致了数据量大但信息却比较匮乏的状况。如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注。而文本分词技术是文本挖掘技术的重要分支,是有效处理和组织错综复杂的文本数据的关键技术,能够有效的帮助人们组织和分流信息。
中文分词是对中文句子的切分技术,是中文文本最重要的预处理技术。自动分词过程是指从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程。自动分词是汉语所特有的研究课题,英语、法语等印欧语种,词与词之间存在着自然的分割,一般不存在分词的问题。
中文自动分词已经研究了20多年,但是目前仍然是制约中文信息处理的瓶颈。汉语除了连续书写之外,汉语词汇没有形态变化,也没有各种词的变格,缺乏自然的分割信息。汉语语法的研究多源于印欧语法的研究,分析结果对分词有用的信息较少;汉语的词序义极为灵活,相对的语法限制也较少。在词汇数量上,一般的印欧语种的词汇最多为几十万词,而汉语的词汇高达几百万乃至上千万。一个汉字序列可能有几种不同的切分结果,产生歧义现象。这些都给自动分词造成了极大的困难。宏观上,主要存在语言学和计算机科学等两方面的困难。
汉语分词系统的实现及效果依赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为以下几类。
(1)机械分词法:主要有匹配法(MM法)、逆向匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法等。
(2)语义分词法:语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。
(3)人工智能法,又称理解分词法,如专家系统法、神经网络方法等。
灵玖软件NLPIR大数据语义智能分析平台针对大数据内容采编挖搜的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,先后历时十八年,服务了全球四十万家机构用户,是大数据时代语义智能分析的一大利器。
灵玖软件NLPIR大数据语义智能挖掘平台,针对大数据内容处理的需要,融合了网络精准采集、自然语言理解、文本挖掘和网络搜索的技术,提供了客户端工具、云服务、二次开发接口。
灵玖软件NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。
数据挖掘技术是近几年新产生的网络技术,可是它的广泛应用性受到了很多公司以及研究人员的喜爱。在大数据背景下,数据挖掘技术已经在各行各业中得到了广泛的应用,所以为了更好地满足应用的需要,我们必须切实加强对其特点的分析,并结合实际需要,切实注重数据挖掘技术的应用,才能促进其应用成效的提升。