NLPIR技术为自然语言中文分词止痛

　　随着商业智能、预测分析、智能硬件等应用的不断普及，非结构化数据，尤其是自然语言处理与理解，作为人工智能与人机交互必不可少的核心技术，正被越来越多地重视和应用。其中词法分析是自然语言处理的基础与关键。

　　中文分词方法可粗略分为两大类:第1类是基于语言学知识的规则方法,如:各种形态的最大匹配、最少切分方法、以及综合了最大匹配和最少切分的N-最短路径方法。第2类是基于大规模语料库的机器学习方法,这是目前应用比较广泛、效果较好的解决方案。用到的统计模型有N元语言模型、信道-噪声模型、最大期望、隐马尔科夫模型等。

　　NLPIR/ICTCLAS分词系统是针对互联网内容处理的需要，融合了自然语言理解、网络搜索和文本挖掘的技术，具有深度学习、高效、语义的特点，可以支持中英文分词与词性标注，可视化系统可根据词性对不同的分词结果进行区分显示，一般虚词都是浅色，而名词、动词、形容词等实词为显著的颜色。系统还支持在线用户词典的输入，用户可以在右下方添加用户词及词性。

　　汉语词法分析能对汉语语言进行拆分处理，是中文信息处理必备的核心部件，采用条件随机场(Conditional Random Field,简称CRF)模型，分词准确率接近99%，具备准确率高、速度快、可适应性强等优势;特色功能包括：切分粒度可调整，融合20余部行业专有词典，支持用户自定义词典等。

　　NLPIR/ICTCLAS2016分词系统主要功能介绍

　　1)中英文混合分词功能

　　自动对中文英文信息进行分词与词性标注功能，涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。

　　2)关键词提取功能

采用交叉信息熵的算法自动计算关键词，包括新词与已知词。

　　3)新词识别与自适应分词功能

　　从较长的文本内容中，基于信息交叉熵自动发现新特征语言，并自适应测试语料的语言概率分布模型，实现自适应分词。

　　4)用户专业词典功能

　　可以单条导入用户词典，也可以批量导入用户词典。如可以定“举报信敏感点”，其中举报信是用户词，敏感点是用户自定义的词性标记。

　　5)微博分词功能

　　对博主ID进行nr标示，对转发的会话进行自动分割标示(标示为ssession)，URL以及Email进行自动标引。

　　分词准确性对搜索引擎来说十分重要，但如果分词速度太慢，即使准确性再高，对于搜索引擎来说也是不可用的，因为搜索引擎需要处理数以亿计的网页，如果分词耗用的时间过长，会严重影响搜索引擎内容更新的速度。而NLPIR/ICTCLAS分词系统很好的解决了这个问题，兼顾了分词的准确性和速度，达到了很很高的技术水平。

NLPIR技术为自然语言中文分词止痛

相关文章

最新收录