搜索引擎是根据用户的查询请求,按照一定算法从索引数据中查找信息返回给用户。为了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
然而随着新闻技术的飞速发展,特别是因特网应用的迅速普及,网站越来越多,并且每天全球互联网。网页数目以千万级的数量增加。要在浩瀚的网络新闻中寻找所需要的材料无异于大海捞针这时为满足人人新闻检索需求的搜索网站应运而生。
搜索引擎是一个没有生命的程序,它是不能够像人类一样进行思考的,它的一切行为都依赖于算法。搜索引擎也有它特定的思考方式,我们称为 “机器学习” 或 “人工智能” ,但是这一切的前提是基于大数据。
JZSearch大数据搜索引擎是针对大数据搜索业务需求而打造的一套搜索引擎,内核经过精心设计,具有专业精准、高扩展性和高通用性的特点。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持邻近搜索、负面搜索、语义关联搜索,可提供各类数据库的实时搜索服务,并支持少数民族语言。
同时,JZSearch大数据搜索系统可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统。
其主要特色在于:
1)、 可以按照任意指定字段的排序,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索;
2)、支持精确匹配以及模糊匹配,默认为精确匹配,忽略字母大小写进行模糊匹配;
3)、内嵌正负面情感等极性分析、语义联想搜索、临近搜索、搜索结果去重;
4)、内嵌了ICTCLAS智能分词系统;
5)、搜索维护功能: 单点故障容错;支持增量索引;自动备份与恢复机制;自动缓存机制;自动优化机制;搜索屏蔽与恢复;
6)、实现的是多线程搜索服务;
7)、每秒可索引3000条记录(主要瓶颈为数据库或文件记录的读取效率);搜索速度在毫秒级别。
8)、兼容当前所有厂商的数据库系统,其中SQL Server, Oracle, MySQL,DB2等。
在进行海量数据搜索时,如果使用单纯的数据库技术,那将是非常痛苦的。速度将是极大的瓶颈。JZSearch大数据搜索系统为大数据信息搜索提供了非常好的技术借鉴,为数据挖掘和利用提供了很大的支持。