搜索引擎索引
编辑搜索引擎索引可收集、解析和存储数据,以促进快速、准确的信息检索。索引设计结合了来自语言学、认知心理学、数学、信息学和计算机科学的跨学科概念。在用于在Internet上查找网页的搜索引擎的上下文中,该过程的另一个名称是web indexing。
流行的引擎专注于在线自然语言文档的全文索引。也可以搜索诸如视频、音频和图形的媒体类型。
元搜索引擎重用其他服务的索引,并且不存储本地索引,而基于缓存的搜索引擎将索引与语料库xxx存储。与全文索引不同,部分文本服务限制了索引深度,以减小索引大小。较大的服务通常由于所需的时间和处理成本而在预定的时间间隔执行索引编制,而基于代理的搜索引擎则实时进行索引编制。
搜索引擎技术挑战
编辑搜索引擎设计中的主要挑战是串行计算过程的管理。竞争条件和相干故障有很多机会。例如,将新文档添加到语料库,并且必须更新索引,但是索引同时需要继续响应搜索查询。这是两个竞争任务之间的冲突。考虑作者是信息的产生者,而网络爬虫是此信息的使用者,它抓取文本并将其存储在缓存中。前向索引是语料库产生的信息的使用者,而反向索引是前向索引产生的信息的使用者。这通常称为生产者-消费者模型。索引器是可搜索信息的生产者,而用户是需要搜索的消费者。在使用分布式存储和分布式处理时,挑战变得更大。为了扩大索引信息的数量,搜索引擎的体系结构可能涉及分布式计算,其中搜索引擎由多个同时运行的机器组成。这增加了不一致性的可能性,并使维持完全同步,分布式,并行架构的难度更大。
文件解析
编辑文档解析将文档或其他形式的媒体的组成部分分开,以插入到前向索引和反向索引中。找到的单词称为令牌,因此,在搜索引擎索引和自然语言处理的上下文中,解析通常称为令牌化。它有时也被称为字边界歧义、标签、文本分割、内容分析、文本分析、文本挖掘、一致性生成、言语分割或词法分析。在公司语中,术语“索引”、“解析”和“标记化”可互换使用。
自然语言处理是不断研究和技术进步的主题。在从文档中提取必要信息以建立索引以支持质量搜索时,令牌化提出了许多挑战。用于索引的令牌化涉及多种技术,其实现通常作为公司机密保存。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/111935/