全文检索

编辑
本词条由“匿名用户” 建档。

当今信息爆炸的时代,信息每天都在以惊人的速度增长。据世界权威机构统计表明,全球来自交易中的数据信息每年增长的速度是61%,而其他各种相关信息的每年增长率超过了92%。研究部门把由传统关系数据库管理系统处理的数据信息称为结构化数据,把包括纸质文件、电子文档、传真、报告、表格、图片、音频和视频文件等在内的信息称为非结构化数据或内容(content)。通过调查发现,在企业存储的海量信息中,结构化数据仅占...

引言

编辑

当今信息爆炸的时代,信息每天都在以惊人的速度增长。据世界权威机构统计表明,全球来自交易中的数据信息每年增长的速度是61%,而其他各种相关信息的每年增长率超过了92%。研究部门把由传统关系数据库管理系统处理的数据信息称为结构化数据,把包括纸质文件、电子文档、传真、报告、表格、图片、音频和视频文件等在内的信息称为非结构化数据或内容(content)。通过调查发现,在企业存储的海量信息中,结构化数据仅占数据信息总量的15%,而非结构化数据却占数据信息总量的85%。有序地存储、管理并挖掘非结构化数据的利用价值是目前全球一切成功企业提高竞争力和生产力的主要手段。
随着中国经济的高速发展,中国市场的竞争日益激烈,竞争的方式将从企业的外延比如统一、高效的营业服务系统,向企业的内涵比如管理决策方面转移。国内各个机构近几十年投入巨资大力发展IT应用,已经初步建成了各自统一的营业服务系统和企业内部信息传递管理系统,经过多年的运行积累,存储了海量的信息资源。由于历史的原因,这些海量的信息资源管理分散、共享困难,形成彼此隔离的信息孤岛。科学管理和合理开发这些信息资源尤其是大量的、非结构化数据信息,是国内企业界面临的巨大挑战。
推动业务发展的是信息,即存入传统数据库中的“结构化”数据和包括可用信息库中内容的“非结构化”数据。顾名思义,非结构化数据的管理也就是我们在本方案中所提及的内容管理
起点对企业搜索形式和内容进行了深刻思考,并经历了企业搜索在企业的应用研究与实践,形成了一套完整的企业搜索平台(Enterprise Search Platform,简称ESP)R3。通过管理实施和内容整合两个方面来提升客户企业提升核心竞争力和业务支撑能力。在管理实施方面,通过对企业内容的管理规划和实施咨询,实现企业管理水平的快速提升。在内容整合上面,起点专注于“企业搜索平台”产品的研发和实施,实现内容为企业价值服务的目标
起点ESP R3产品,是起点基于企业搜索理论基础之上,通过对企业内容整合,配置超过50种文档类型,搭配各种数据索引方式,辅之以可靠的安全策略,构建一套完整的企业搜索平台,为客户提供完整的、智能的、安全的、强大的企搜索服务。

章节

编辑

xxx章 企业搜索
2.1.企业信息化的挑战
在全球经济危机的影响下,企业 IT 投资预算将会xxx降低,应用系统集中化、数据管理集中化、IT 管控集中化等越来越受到企业的关注,在通过 ERP 整体解决方案的实施解决业务支撑一体化的同时,企业也迫切需要一个可以实现内外资源整合的高效 IT 工作平台,以提升管理支撑的能力。具体表现在:
1) 需要一个统一接入和访问的 IT平台
多年的信息化建设导致企业的应用系统往往比较多,访问方式多样,越来越多企业和员工希望有一个统一的访问方式, 只需要输入一次帐号就可以根据自己的权限访问各种应用系统,更进一步则希望能够根据自己的需求组织应用功能和操作界面,方便使用。
2) 高效的业务协同管理工作平台
企业各个业务线、部门都存在大量的流程,一方面希望实现业务线内、部门内流程的固化,提高内部协作的效率,另一方面迫于市场和竞争的压力,更希望能够实现跨业务、跨部门、跨系统的流程管理,从而提高企业整体运作效率。
3)需要加强各种文档类资料的统一管理
过去在信息化建设过程往往重视人、财、物这些有形的物质资产的数字化管理,忽视了业务活动过程中产生的大量文档类资料的管理,容易引起类似员工流失带走知识、急需某文档却找不到的现象,无形中增加企业成本,因此需要实现对企业内外的文档资料、专家经验进行有效的获取、沉淀、共享、应用、学习和创新,从而提高员工的素质和技能、执行力。
4)需要一个集中的数据和信息整合平台
随着企业各类应用系统积累的数据越来越多,数据的准确性、统一性、及时性问题越来越突出, 需要一个平台能够实现对数据的统一管理, 向业务人员和管理人员提供及时、 准确、多维度的各种业务数据,通过数据集中展现与分析发现生产、 经营中的问题, 便于领导决策。
5)如何提高IT的投资回报(ROI)
经济危机、激烈的市场竞争给企业带来巨大压力,提高 IT 基础设施、应用系统采购的性价比,减少系统维护及维护人员成本,降低业务人员掌握 IT 的学习成本,将有助提升企业IT建设的投资回报,使IT建设和价值更好地得到企业的认可。
2.2.起点ESP R3的价值
企业信息源的日益多元化令管理者和员工查找信息的成本越来越高;而互联网搜索的模式是如此简单,使用者只要输入一个关键词并按下 Enter 键,系统就会自动地将符合的结果列出,即使面对的是数千万的网页,入口网站依然在一秒内就完成查询通用的互联网搜索引擎对人们使用习惯的巨大影响力使Google化的企业搜索成为企业用户的梦想。
但是当公司真要导入时,却发现系统的复杂度远超过先前的想象,常会因为评估期过程太长而导致项目无疾而终。虽然企业信息搜索复杂,但信息利用的成本/收益分析证明企业搜索不仅必要而且重要。Web 2.0的模式不断渗透企业日常行为,大量数据、信息和知识的电子化,其带来的知识共享诉求要求企业搜索深入参与企业知识建设。

检索
一、问题与挑战
对多数的企业来说,在购买企业搜索引擎时的出发点都很简单,往往只是要解决几个典型的问题,比如:
1.  在企业网站中提供搜索功能。
2.  公司内数据越来越多难以管理,且储存在不同计算机内。
3.  离职员工的文件数据已完成备份,但想使用时却难以发现。
4.  同一份文件需要重复的提供给不同的人。
5.  不同部门对内部文件都有自己的管理方式,难以整合。
起点ESP R3是企业内容检索的应用,能够通过对企业内容的有效整合,搭建一套安全的基于角色的、统一可靠的的检索入口访问企业内容。起点ESP R3产品专注于提高企业内容利用效率,提升企业产能和效益,以企业内容管理为基础,以应用开发为平台,全面帮助企业实现价值最大化
二、企业搜索应用
起点ESP R3经过多年的行业应用和演变,提出四大核心竞争优势:企业级安全(灵活可扩展的用户体系、基于角色的访问控制、文档级/记录级的权限级别),更高的准确性和智能化(概念检索、基于统计的中文语言处理、主题抽取算法),稳定强大全文检索功能(优异的性能、T级数据支撑能力、亚秒级响应速度,7*24全年稳定运行),低成本高灵活度的按需定制(强大的接口扩展能力、集群、分布式按需扩展)

第二章 起点ESP R3产品
3.1. 起点ESP R3的定位与目标
起点ESP R3专注于为企业提供一套完整的企业搜索平台,包括企业内容采集、内容存储、文档管理、语言处理、安全管理、统一检索门户、应用开发平台等。
三、ESP R3系统结构
其中:
统一检索:起点ESP R3以多个分布式异构数据源为对象,向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地、局域网广域网上的多个分布式异构数据源,并对检索结果加以整合,在经过消重和排序等操作后,以统一的格式将结果呈现给用户的检索。R3更能够为不同用户提供不同的界面展现方式,即满足通用检索需求,又能够实现个性化需要。
语言处理:中文分词是企业搜索必须具备的技术之一,应用中文分词技术才能使搜索结果更加符合用户习惯,更加接近用户的期望结果,起点ESP R3产品集成了中文分词技术,并有着40万词库的支持,用户也可以根据自己的需要和行业特色来添加和维护词库。中文分词技术的准确率达到96%以上。
安全系统:实现了各类文档、资料、数据等信息的访问安全,起点ESP R3采用独创的分级安全体系来保障不同安全级别的信息必须经过授权才能够访问;通过对检索结果进行文档级安全和集合级安全的分类来实现授权体系的灵活与强大功能。R3更能够与绝大部分业务系统的用户体系整合,并可以继承原有的权限系统,支持LDAP、数据库、Domino等。
内容存储:实现各类文档、资料、数据等信息的分布式存储,R3是能够xxx限度地提高部署灵活性和可扩展性,所有的元数据和全文索引分别存储在不同的单元上。R3支持主流数据库平台、操作系统浏览器、门户、应用程序服务器和开发标准,从而提供了一个不受供应商限制的体系结构。 这一灵活性可保护您在现有 IT 基础架构中的投资, 进而可降低总体拥有成本。
文档管理:超过50种文档类型的支持,通过将文档元数据和索引信息进行分开存储实现了强大的元数据管理功能,辅以基于文档安全级别的控制体系,对文档的整个生命周期进行全面管理。R3能够通过创新的回溯功能查看文档的历史版本,严格的法规遵从策略,全面提升企业文档到知识的转换能力。
内容采集:除了支持所有主流数据库和文件系统的采集以外,起点ESP R3还支持内容仓库的采集,支持Domino、Documentum等企业内容管理中的数据,R3能够针对指定文件所在目录进行高效检索,并内置文件解析器,可对PDF、OFFICE、HTML、TXT、音频、视频等多种文件格式自动解析。同时根据需要R3能够定制从其它各类数据源获取要检索的数据内容,例如:XML文件、其它数据池等等。即使在同一个应用中,也可以通过配置同时从多个数据源获取数据并提供检索服务。
应用开发平台:R3是一个完整的企业搜索平台,能够完成企业内容整合过程的绝大部分功能,将功能强大的R3作为整个解决方案的应用基础,充分利用其底层应用功能,并封装为更易于使用的服务来提高应用开发的效率,更好地满足不断变化的业务需求。
3.2. 起点ESP R3应用架构
起点ESP R3坚持以人为导向的设计原则, 以满足不同使用者应用需求的企业搜索入口为统一展现手段,以开放的应用开发平台为应用支撑,提供经过安全级别控制与过滤的安全检索、管理企业内容和知识,根据企业实际需求拓展内容管理、知识管理、协同应用等大量功能,通过内容整合技术实现对企业 ERP、PDM、CRM等业务系统的数据和流程。以灵活、方便、快捷地方式组合应用,满足企业管理支撑的各种业务需要。
起点ESP R3功能架构如下图所示:
四、起点ESP R3应用架构
五、起点ESP R3非结构化内容处理
3.3. 起点ESP R3部分功能列表
起点ESP R3为企业提供全面的管理支撑应用,具有丰富的应用功能模块,以满足不同企业在不同时期的业务需求,企业根据需求灵活地组合各种应用模块构建适合自己的应用解决方案。下表是起点ESP R3部分功能清单及简单功能描述。

编号 名称 功能说明

R3-F01-0 内容采集 实现企业环境中的各种数据源的数据采集功能
R3-F01-1 本地文件采集 对本地文件系统中的文件进行采集和文本处理
R3- F01-2 网络文件采集 对网络环境中的文件系统进行采集和文本处理
R3-F01-3 FTP采集 扩展网络采集类型,支持对FTP环境存储的文件进行采集和文本处理
R3-F01-4 POP3采集 扩展网络采集类型,能够对支持POP3协议的邮件系统中的邮件进行采集,支持SSL方式的链接协议
R3-F01-5 Domino采集 采集BM Domino系统中的内容
R3-F01-6 Documentum采集 采集EMC Documentum系统中的内容
R3-F01-7 Mysql采集 采集Mysql数据,支持按主键采集和按更新时间戳采集,自动采集,支持任务调度模式。
R3-F01-8 Oracle采集 采集ORACLE数据,支持按主键采集和按更新时间戳采集,支持ORACLE的各个版本,自动采集,支持任务调度模式。
R3-F01-9 SQL Server采集 采集SQL Server数据,支持按主键采集和按更新时间戳采集,自动采集,支持任务调度模式。
R3-F01-10 DB2采集 采集DB2数据,支持按主键采集和按更新时间戳采集,自动采集,支持任务调度模式。
R3-F02 内容检索
R3-F02-1 关键词检索 标准的关键词检索功能,支持任意字段的检索,支持日期和数字类型的关键词检索,支持范围检索
R3-F02-2 全文搜索 企业内容的全文检索,支持千万级的数据量,简单检索响应时间为亚秒级,海量数据,瞬间展现
R3-F02-3 检索统计 检索结果分组统计,支持多种数据类型的分组统计功能,无数据量限制。
R3-F02-4 分类检索 人工堆数据内容分类,检索能够在分类下进行,能够对分类授权。只有具有分类授权访问的用户才能够使用分类检索功能
R3-F02-5 检索安全分级 严格控制检索结果记录的安全性,默认分为5个级别,第五级为最低级别,所有用户都可以访问,最高位xxx级,只有用户的安全级别为xxx级采集可以访问。
R3-F02-6 检索过滤 安全访问功能,检索结果能够被授权用户访问,通过与第三方用户体系和角色系统集成,实现信息的访问安全
R3-F02-7 检索结果反显 检索结果按用户自定义方式进行反显
R3-F02-8 任意字段排序 检索结果排序功能,支持任意数据类型
R3-F02-9 日期分组统计 检索结果按照日期进行分组统计,例如:年度分组统计
R3-F02-10 数字分组统计 检索结果按照数字范围进行分组统计,例如:年龄段分组统计
R3-F02-11 主题分组统计 检索结果按照主题进行分组统计,例如:公司新闻消息中关于市场推广活动的统计
R3-F02-12 跨库检索 支持对异构数据系统的统一检索,例如:对万方、维普等第三方检索系统的异构数据集成
R3-F02-13 分布式检索 支撑海量数据,能够通过多级分布方式提升系统的数据处理能力,能够以低成本的方式按需扩展系统
R3-F02-14 个性化搜索 R3独有的功能,不同用户或不同角色可以定义不同的检索结果展现方式。
R3-F02-15 快速预览 快速预览检索结果,即快照功能
R3-F02-16 授权原文下载 获得授权的用户,能够对原文进行下载
R3-F03 系统管理
R3-F03-1 角色管理 系统登录用户角色管理,也可以和外部系统整合作为映射参数
R3-F03-2 用户管理 系统用户管理
R3-F03-3 用户级别管理 系统安全级别,用户安全级别,系统信息访问分级参数
R3-F03-4 用户界面定义 自定义用户检索前台,系统支持不同用户访问不同前台检索界面
R3-F03-5 角色界面定义 为角色定义安全级别、默认角色使用的检索界面
R3-F03-6 采集策略定义 定义采集线程数、采集内存使用量、内存使用总量等参数
R3-F03-7 系统邮件设置 系统发送邮件时使用的 SMTP账号、密码、发件人邮件地址等信息
R3-F04 核心扩展
R3-F04-1 检索模板定义
R3-F04-2 文档格式定义
R3-F04-3 元数据定义
R3-F04-5 语言处理接口
R3-F04-7 数据库驱动
R3-F04-8 数据采集器
R3-F04-9 语言分析
R3-F04-10 文件解析
R3-F04-11 数据处理
R3-F04-12 文本处理
R3-F04-13 身份验证

第三章 实施服务
3.1. 实施服务
多年的产品研发、项目实施与售后服务积累的经验与教训,使得起点深信, “三分技术产品、七分项目实施、十二分服务支持”是保证客户满意、企业成功的关键。起点在项目实施过程中除提供标准的 IT 服务(如系统安装、配置、定制开发、测试、上线)外,还将帮助客户进行系统的内容规划, 如内容的入库,同时还将结合企业管理及文化特点协助开展培训、项目推广宣传等活动,让企业使用者真正地愿意用、用起来、用得好。
图四、起点ESP R3实施过程
起点在ESP R3解决方案的实施过程中将严格规范实施的步骤,对每个阶段的工作内容、工作产出物、关键检查或验收点严格把关,保证双方能够及时沟通并发现问题,同时利用项目协作管理工具全程管理实施过程,记录项目实施过程、实施的经验与文档,当项目结束时,全部传递并移交客户,以帮助客户提高后期维护的能力与水平。
3.2. 售后服务
软件服务是全球 IT 产业重要的发展趋势,也是软件企业越来越重要的业务构成,更是软件企业生存和发展的增值方向。起点希望能够帮助客户最佳地应用起点产品,并为客户创造更加广泛的价值。
起点服务内容:
 培训服务:包括产品使用培训、系统管理培训、管理经验培训;
 产品维护服务:包括产品安装、配置等技术支持,提供备份策略方案;
 产品版本更新与升级服务;
 产品介质服务:产品光盘、资料通知与寄送服务;
 产品需求变更服务:提供根据客户需求进行产品定制服务。
起点服务方式:
网络服务: 通过起点专业服务网站 http://service.rivues.com或专业技术工程师的电子信箱对用户提供全方位的产品技术支持与服务;
热线技术咨询服务:通过拔打公司服务热线() ,由专业技术服务人员解答客户有关产品应用问题等,标准服务时间为周一到周五(9:00~18:00,国家法定节假日除外) ;
 远程维护服务:利用远程工具提供远程系统维护支持,包括应用问题排查、解决,系统管理与性能优化等。

凡购买起点软件产品的客户,依据合同将享有“一年内免费服务”。

第四章 佛山起点
佛山起点软件服务有限公司是注册在广东顺德的一家软件企业,专业提供企业级搜索应用系统解决方案,我们在企业搜索平台开发应用方面具有丰富的开发经验,并且可以提供全面的搜索引擎解决方案,具有多名资深的搜索引擎专家,专注于行业/垂直搜索引擎开发。
起点科技是一个优秀并且团结的团队,所有人员都是大学以上文凭,并且在企业应用软件行业都有4年以上的开发或服务经验,所使用和掌握的技术也处于行业xxx地位。起点科技经过自己的努力,建立了良好的客户关系,同时,公司也与业内多家公司保持着良好的合作伙伴关系,共同推动国内IT事业的发展。
起点执着的追求,力求做到"专业、专注、专精";认真、踏实、以客户为中心是我们公司的经营理念与服务准则。我们以满足用户的需求为己任,为用户提供最先进实用的软件产品,为用户创造价值。我们期望跟用户一起在进步!共同发展!
起点在企业级搜索领域拥有先进的理念、成熟的技术和先进的信息检索、数据抽取识别和文本挖掘技术。起点企业搜索产品通过在多个企业级运营项目上的成功应用,积累了丰富的行业实践经验。起点结合互联网垂直领域的业务应用需求,依托自身搜索引擎产品和中文信息处理技术,推出全面的企业级搜索引擎产品ESP R3。 ESP R3是起点专门为企业应用系统精心设计和打造的一款专业产品,为企业解决大量、海量数据下的检索应用,并向用户提供高效的、准确的、安全的、个性化的搜索体验。起点采用主题抽取、概念检索等特有技术实现了计算机对文本、网页、电子邮件、文档的自动处理。起点企业搜索产品R3能够为各行业基于非结构化信息的应用提供强大动力,包括跨库检索、电子商务、CRM、知识管理、企业信息门户等。起点的技术在各种垂直行业中都有大量的应用,其主要原因是各个市场领域都需要管理并合理利用大量的非结构化信息。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/4089/

(6)
词条目录
  1. 引言
  2. 章节
  3. 编号 名称 功能说明

轻触这里

关闭目录

目录