站内检索

编辑
本词条由“匿名用户” 建档。
应用范围   本系统主要针对基于Internet的局部站点和基于Intranet的局域网内部的网页资源进行快速有效的全文检索。   据统计一般的大型企业、政府、高等院校的网站内部的页面总量在1万页左右。例如:根据我们的网页搜集系统对清华大学站内全部页面进行搜集所获取的信息,静态页面数量在12000页左右,动态页面数量在6000页左右;我们的页面收集系统也对南京大学站内的全部静态页面进行了搜集,...


应用范围


  本系统主要针对基于Internet的局部站点和基于Intranet的局域网内部的网页资源进行快速有效的全文检索


  据统计一般的大型企业、政府、高等院校的网站内部的页面总量在1万页左右。例如:根据我们的网页搜集系统对清华大学站内全部页面进行搜集所获取的信息,静态页面数量在12000页左右,动态页面数量在6000页左右;我们的页面收集系统也对南京大学站内的全部静态页面进行了搜集,结果统计页面总量在5000页左右。
  这种网页数量的站点信息一方面要求检索系统更新周期短(每周更新一次),一方面还需要做到检索速度快。如果利用Google这样的搜索引擎进行检索站内信息的话,难以保证数据的更新要求;而如果自己开发基于数据库技术的检索系统的话,又难以保证检索的高效率。正是在这种需求背景之下,本产品应运而生。
  据统计,发达国家一般的大中型网站均配有站内全文检索系统,这样可以保证客户能够在最短的时间内获取所需要的信息。反观国内,几乎90%的大中型网站都没有相应的站内全文检索系统。所以,站内全文检索,是大势所趋,越早上站内全文检索系统,网站越有吸引力


系统的功能


本部分将为用户介绍该系统所具备的功能,其中黑体字部分是本系统独具特色的功能。


1)信息搜集能力超强
  本系统突破了传统搜索引擎的禁区,能够处理所有的动态页面信息。传统的搜索引擎为了防止掉入CGI陷阱中,一般都不敢处理动态页面。所谓的CGI陷阱指的是由于网络服务器动态计算产生的页面具有很大的不确定性,造成页面搜集程序循环访问同一个URL。通过我们的分析发现,目前绝大部分网站都采用各种脚本制作动态页面,因此如果不能对动态页面进行处理,那么这种检索系统是不完备的。本系统采用了独有的技术完全克服了这方面的困难,从而具有更强的信息搜集能力。


2)检索速度快
  一般的非专业的检索系统都是采用数据库系统完成的,这种系统的响应时间一般都在10秒左右(对于大数据量)。而本系统的响应时间一般都在0.02秒左右,网络传输时间一般在1秒左右,因此总体响应时间在1-2秒内。这种速度显然是非常快的。


3)支持复合检索
通常情况下用户的检索是复合条件的,例如检索"新闻中心+主任",用户想了解新闻中心的主任的一些信息。本系统支持"+、-"操作符,完全可以满足用户的检索需求。在这一点上,我们的系统同通用的搜索引擎系统是一致的。


4)支持分类检索
目前上规模的网站一般都会将网站的信息划分为若干个频道,例如:中国教育信息网主要分为教育产品、招考中心、教育图书、科普长廊、教育动态、科研天地、学生社区、家长时段、职业培训、海外视窗、信息化成就展等几个主要的频道。这样就给站内全文检索系统提出了新的要求,应该不仅能够在整个网站内部进行检索,而且还能够将检索的范围限制在某个频道内部。基于这种需求,Xunao(V2.0)提供了分频道检索的功能。


5)支持按照更新时间范围检索
    对于报社类网站、新闻类站点,时间显得尤为重要,针对这种需求,Xunao Search (V2.0)提供了按照时间范围进行检索的功能,用户可以选择搜索的起止时间进行全文检索,这样更加体现了新闻的时效性。


6)支持多种排序方式
    传统的搜索引擎一般都是按照相关度进行排序的,Xunao Search (V2.0)不仅在结果相关度排序上进行性能上的改进,而且提供了对检索结果按照更新时间升序、按照更新时间降序等多种排序方式。这样一来,用户可以在最重要的检索结果中轻松地挑选出自己感兴趣的时间段的结果。


7)支持模糊检索
    由于数据量非常大,一般的搜索引擎系统都没有模糊检索的功能,但是用户往往有这方面的需求,如用户打算了解一本书的作者的一些信息,但是他仅仅记得这个人叫张X京,这里的"X"代表用户不知道这中间的字是什么了。如果对于传统的搜索引擎,肯定无能为力了,但是在我们这个系统里面,只要存在这个信息,那么就可以检索出来。检索方式如下:用户可以输入"作者+张?京",系统就会自动检索出满足条件的纪录。
系统还支持"*"操作符,该操作符代表0个或者多个字符。有什么好处呢?一般的搜索引擎仅仅检索出那些只要在同一个页面里面出现的就算成结果,不论这两个检索词在文中出现的相对位置有多么远。例如用户打算搜索"IBM+笔记本",对于一般的搜索引擎来说只要页面里面同时出现了"IBM"和"笔记本",那么它就会认为这是结果,很多情况下这样的页面并非用户需要的;而对于本系统来说,用户可以输入"IBM*笔记本",那么检索的结果一定是"IBM"这个词在前面,"笔记本"这个词在后面,并且两个词之间距离很近。显然,这种检索结果的准确率要高很多。


8)结果相关度高
    本系统通过对网页本身的分析结合权威页面的分析,能够保证检索结果中越重要的页面排放在最前面。例如:我们打算检索清华大学"新闻中心",通过测试其他的搜索引擎系统,发现检索结果是一些页面内含有"新闻中?quot;这个词多的页面排放在前面,而这些页面都是无关紧要的一些小新闻,真正重要的清华大学新闻中心首页却没有出现在检索结果里面。本系统完全解决了这个问题,保证最权威的页面排放在最前面。


9)动态生成文摘
    一般的搜索引擎产品的文摘部分仅仅是抽取了页面的前200-300个字节,很多情况下这部分内容同检索结果没有任何关系,用户根本无法从中获取什么有用的信息,从而不得不先访问这些页面才能知道真正的内容是什么。
本系统可以根据检索词的位置,从该检索词附近动态抽取文本作为文摘,从而极大地提高了用户的检索效率。


10)支持网页快照功能
    系统会将网页保存到本地硬盘中,这样用户在检索的时候可以直接察看系统硬盘中保存的页面,这样做的好处是:
    xxx:如果该页面已经不存在了,用户依然可以查阅该页面的信息;
    第二:该页面将动态标记关键字,便于用户查找最感兴趣的信息。


11)信息搜集、索引建立时间短
    一般来说,对于一个包含一万个页面的站点的信息搜集和索引建立总体需要的时间约一个小时左右,不需要人工的干预。


12)方便有效的管理功能
    系统管理人员可以从任何一台联网的计算上,通过浏览器对系统进行全方位的管理工作



 

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/3213/

(4)