词条 | 企业搜索 |
释义 | 引言当今信息爆炸的时代,信息每天都在以惊人的速度增长。据世界权威机构统计表明,全球来自交易中的数据信息每年增长的速度是61%,而其他各种相关信息的每年增长率超过了92%。研究部门把由传统关系数据库管理系统处理的数据信息称为结构化数据,把包括纸质文件、电子文档、传真、报告、表格、图片、音频和视频文件等在内的信息称为非结构化数据或内容(content)。通过调查发现,在企业存储的海量信息中,结构化数据仅占数据信息总量的15%,而非结构化数据却占数据信息总量的85%。有序地存储、管理并挖掘非结构化数据的利用价值是目前全球一切成功企业提高竞争力和生产力的主要手段。 随着中国经济的高速发展,中国市场的竞争日益激烈,竞争的方式将从企业的外延比如统一、高效的营业服务系统,向企业的内涵比如管理决策方面转移。国内各个机构近几十年投入巨资大力发展IT应用,已经初步建成了各自统一的营业服务系统和企业内部信息传递管理系统,经过多年的运行积累,存储了海量的信息资源。由于历史的原因,这些海量的信息资源管理分散、共享困难,形成彼此隔离的信息孤岛。科学管理和合理开发这些信息资源尤其是大量的、非结构化数据信息,是国内企业界面临的巨大挑战。 推动业务发展的是信息,即存入传统数据库中的“结构化”数据和包括可用信息库中内容的“非结构化”数据。顾名思义,非结构化数据的管理也就是我们在本方案中所提及的内容管理。 对企业搜索形式和内容进行了深刻思考,并经历了企业搜索在企业的应用研究与实践,形成了一套完整的企业搜索平台(Enterprise Search Platform,简称ESP)。通过管理实施和内容整合两个方面来提升客户企业提升核心竞争力和业务支撑能力。在管理实施方面,通过对企业内容的管理规划和实施咨询,实现企业管理水平的快速提升。在内容整合上面,专注于“企业搜索平台”产品的研发和实施,实现内容为企业价值服务的目标。 产品,是基于企业搜索理论基础之上,通过对企业内容整合,配置超过50种文档类型,搭配各种数据索引方式,辅之以可靠的安全策略,构建一套完整的企业搜索平台,为客户提供完整的、智能的、安全的、强大的企搜索服务。 企业信息化的挑战在全球经济危机的影响下,企业 IT投资预算将会大大降低,应用系统集中化、数据管理集中化、IT 管控集中化等越来越受到企业的关注,在通过 ERP 整体解决方案的实施解决业务支撑一体化的同时,企业也迫切需要一个可以实现内外资源整合的高效 IT 工作平台,以提升管理支撑的能力。具体表现在: 1) 需要一个统一接入和访问的 IT平台 多年的信息化建设导致企业的应用系统往往比较多,访问方式多样,越来越多企业和员工希望有一个统一的访问方式,只需要输入一次帐号就可以根据自己的权限访问各种应用系统,更进一步则希望能够根据自己的需求组织应用功能和操作界面,方便使用。 2) 高效的业务协同管理工作平台 企业各个业务线、部门都存在大量的流程,一方面希望实现业务线内、部门内流程的固化,提高内部协作的效率,另一方面迫于市场和竞争的压力,更希望能够实现跨业务、跨部门、跨系统的流程管理,从而提高企业整体运作效率。 3)需要加强各种文档类资料的统一管理 过去在信息化建设过程往往重视人、财、物这些有形的物质资产的数字化管理,忽视了业务活动过程中产生的大量文档类资料的管理,容易引起类似员工流失带走知识、急需某文档却找不到的现象,无形中增加企业成本,因此需要实现对企业内外的文档资料、专家经验进行有效的获取、沉淀、共享、应用、学习和创新,从而提高员工的素质和技能、执行力。 4)需要一个集中的数据和信息整合平台 随着企业各类应用系统积累的数据越来越多,数据的准确性、统一性、及时性问题越来越突出,需要一个平台能够实现对数据的统一管理, 向业务人员和管理人员提供及时、 准确、多维度的各种业务数据,通过数据集中展现与分析发现生产、 经营中的问题, 便于领导决策。 5)如何提高IT的投资回报(ROI) 经济危机、激烈的市场竞争给企业带来巨大压力,提高 IT 基础设施、应用系统采购的性价比,减少系统维护及维护人员成本,降低业务人员掌握 IT 的学习成本,将有助提升企业IT建设的投资回报,使IT建设和价值更好地得到企业的认可。 企业搜索平台的价值企业信息源的日益多元化令管理者和员工查找信息的成本越来越高;而互联网搜索的模式是如此简单,使用者只要输入一个关键词并按下 Enter 键,系统就会自动地将符合的结果列出,即使面对的是数千万的网页,入口网站依然在一秒内就完成查询。通用的互联网搜索引擎对人们使用习惯的巨大影响力使Google化的企业搜索成为企业用户的梦想。 但是当公司真要导入时,却发现系统的复杂度远超过先前的想象,常会因为评估期过程太长而导致项目无疾而终。虽然企业信息搜索复杂,但信息利用的成本/收益分析证明企业搜索不仅必要而且重要。Web 2.0的模式不断渗透企业日常行为,大量数据、信息和知识的电子化,其带来的知识共享诉求要求企业搜索深入参与企业知识建设。 图一、问题与挑战 对多数的企业来说,在购买企业搜索引擎时的出发点都很简单,往往只是要解决几个典型的问题,比如: 1. 在企业网站中提供搜索功能。 2. 公司内数据越来越多难以管理,且储存在不同计算机内。 3. 离职员工的文件数据已完成备份,但想使用时却难以发现。 4. 同一份文件需要重复的提供给不同的人。 5. 不同部门对内部文件都有自己的管理方式,难以整合。 企业内容检索的应用,能够通过对企业内容的有效整合,搭建一套安全的基于角色的、统一可靠的的检索入口访问企业内容。产品专注于提高企业内容利用效率,提升企业产能和效益,以企业内容管理为基础,以应用开发为平台,全面帮助企业实现价值最大化。 图二、企业搜索应用 经过多年的行业应用和演变,提出四大核心竞争优势:企业级安全(灵活可扩展的用户体系、基于角色的访问控制、文档级/记录级的权限级别),更高的准确性和智能化(概念检索、基于统计的中文语言处理、主题抽取算法),稳定强大全文检索功能(优异的性能、T级数据支撑能力、亚秒级响应速度,7*24全年稳定运行),低成本高灵活度的按需定制(强大的接口扩展能力、集群、分布式按需扩展) 企业搜索平台的定位与目标专注于为企业提供一套完整的企业搜索平台,包括企业内容采集、内容存储、文档管理、语言处理、安全管理、统一检索门户、应用开发平台等。 图三、ESP 系统结构 其中: 统一检索:以多个分布式异构数据源为对象,向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地、局域网和广域网上的多个分布式异构数据源,并对检索结果加以整合,在经过消重和排序等操作后,以统一的格式将结果呈现给用户的检索。更能够为不同用户提供不同的界面展现方式,即满足通用检索需求,又能够实现个性化需要。 语言处理:中文分词是企业搜索必须具备的技术之一,应用中文分词技术才能使搜索结果更加符合用户习惯,更加接近用户的期望结果,产品集成了中文分词技术,并有着40万词库的支持,用户也可以根据自己的需要和行业特色来添加和维护词库。中文分词技术的准确率达到96%以上。 安全系统:实现了各类文档、资料、数据等信息的访问安全,采用独创的分级安全体系来保障不同安全级别的信息必须经过授权才能够访问;通过对检索结果进行文档级安全和集合级安全的分类来实现授权体系的灵活与强大功能。更能够与绝大部分业务系统的用户体系整合,并可以继承原有的权限系统,支持LDAP、数据库、Domino等。 内容存储:实现各类文档、资料、数据等信息的分布式存储,是能够最大限度地提高部署灵活性和可扩展性,所有的元数据和全文索引分别存储在不同的单元上。支持主流数据库平台、操作系统、浏览器、门户、应用程序服务器和开发标准,从而提供了一个不受供应商限制的体系结构。 这一灵活性可保护您在现有 IT 基础架构中的投资, 进而可降低总体拥有成本。 文档管理:超过50种文档类型的支持,通过将文档元数据和索引信息进行分开存储实现了强大的元数据管理功能,辅以基于文档安全级别的控制体系,对文档的整个生命周期进行全面管理。能够通过创新的回溯功能查看文档的历史版本,严格的法规遵从策略,全面提升企业文档到知识的转换能力。 内容采集:除了支持所有主流数据库和文件系统的采集以外,还支持内容仓库的采集,支持Domino、Documentum等企业内容管理中的数据,能够针对指定文件所在目录进行高效检索,并内置文件解析器,可对PDF、OFFICE、HTML、TXT、音频、视频等多种文件格式自动解析。同时根据需要能够定制从其它各类数据源获取要检索的数据内容,例如:XML文件、其它数据池等等。即使在同一个应用中,也可以通过配置同时从多个数据源获取数据并提供检索服务。 应用开发平台:是一个完整的企业搜索平台,能够完成企业内容整合过程的绝大部分功能,将功能强大的作为整个解决方案的应用基础,充分利用其底层应用功能,并封装为更易于使用的服务来提高应用开发的效率,更好地满足不断变化的业务需求。 应用架构坚持以人为导向的设计原则, 以满足不同使用者应用需求的企业搜索入口为统一展现手段,以开放的应用开发平台为应用支撑,提供经过安全级别控制与过滤的安全检索、管理企业内容和知识,根据企业实际需求拓展内容管理、知识管理、协同应用等大量功能,通过内容整合技术实现对企业 ERP、PDM、CRM等业务系统的数据和流程。以灵活、方便、快捷地方式组合应用,满足企业管理支撑的各种业务需要。 功能架构如下图所示: 图四、应用架构 图五、非结构化内容处理 部分功能列表为企业提供全面的管理支撑应用,具有丰富的应用功能模块,以满足不同企业在不同时期的业务需求,企业根据需求灵活地组合各种应用模块构建适合自己的应用解决方案。下表是部分功能清单及简单功能描述。 编号 名称 功能说明 -F01-0 内容采集 实现企业环境中的各种数据源的数据采集功能 -F01-1 本地文件采集 对本地文件系统中的文件进行采集和文本处理 - F01-2 网络文件采集 对网络环境中的文件系统进行采集和文本处理 -F01-3 FTP采集 扩展网络采集类型,支持对FTP环境存储的文件进行采集和文本处理 -F01-4 POP3采集 扩展网络采集类型,能够对支持POP3协议的邮件系统中的邮件进行采集,支持SSL方式的链接协议 -F01-5 Domino采集 采集BM Domino系统中的内容 -F01-6 Documentum采集 采集EMC Documentum系统中的内容 -F01-7 Mysql采集 采集Mysql数据,支持按主键采集和按更新时间戳采集,自动采集,支持任务调度模式。 -F01-8 Oracle采集 采集ORACLE数据,支持按主键采集和按更新时间戳采集,支持ORACLE的各个版本,自动采集,支持任务调度模式。 -F01-9 SQL Server采集 采集SQL Server数据,支持按主键采集和按更新时间戳采集,自动采集,支持任务调度模式。 -F01-10 DB2采集 采集DB2数据,支持按主键采集和按更新时间戳采集,自动采集,支持任务调度模式。 -F02 内容检索 -F02-1 关键词检索 标准的关键词检索功能,支持任意字段的检索,支持日期和数字类型的关键词检索,支持范围检索 -F02-2 全文搜索 企业内容的全文检索,支持千万级的数据量,简单检索响应时间为亚秒级,海量数据,瞬间展现 -F02-3 检索统计 检索结果分组统计,支持多种数据类型的分组统计功能,无数据量限制。 -F02-4 分类检索 人工堆数据内容分类,检索能够在分类下进行,能够对分类授权。只有具有分类授权访问的用户才能够使用分类检索功能 -F02-5 检索安全分级 严格控制检索结果记录的安全性,默认分为5个级别,第五级为最低级别,所有用户都可以访问,最高位第一级,只有用户的安全级别为第一级采集可以访问。 -F02-6 检索过滤 安全访问功能,检索结果能够被授权用户访问,通过与第三方用户体系和角色系统集成,实现信息的访问安全 -F02-7 检索结果反显 检索结果按用户自定义方式进行反显 -F02-8 任意字段排序 检索结果排序功能,支持任意数据类型 -F02-9 日期分组统计 检索结果按照日期进行分组统计,例如:年度分组统计 -F02-10 数字分组统计 检索结果按照数字范围进行分组统计,例如:年龄段分组统计 -F02-11 主题分组统计 检索结果按照主题进行分组统计,例如:公司新闻消息中关于市场推广活动的统计 -F02-12 跨库检索 支持对异构数据系统的统一检索,例如:对万方、维普等第三方检索系统的异构数据集成 -F02-13 分布式检索 支撑海量数据,能够通过多级分布方式提升系统的数据处理能力,能够以低成本的方式按需扩展系统 -F02-14 个性化搜索 独有的功能,不同用户或不同角色可以定义不同的检索结果展现方式。 -F02-15 快速预览 快速预览检索结果,即快照功能 -F02-16 授权原文下载 获得授权的用户,能够对原文进行下载 -F03 系统管理 -F03-1 角色管理 系统登录用户角色管理,也可以和外部系统整合作为映射参数 -F03-2 用户管理 系统用户管理 -F03-3 用户级别管理 系统安全级别,用户安全级别,系统信息访问分级参数 -F03-4 用户界面定义 自定义用户检索前台,系统支持不同用户访问不同前台检索界面 -F03-5 角色界面定义 为角色定义安全级别、默认角色使用的检索界面 -F03-6 采集策略定义 定义采集线程数、采集内存使用量、内存使用总量等参数 -F03-7 系统邮件设置 系统发送邮件时使用的 SMTP账号、密码、发件人邮件地址等信息 -F04 核心扩展 -F04-1 检索模板定义 -F04-2 文档格式定义 -F04-3 元数据定义 -F04-5 语言处理接口 -F04-7 数据库驱动 -F04-8 数据采集器 -F04-9 语言分析 -F04-10 文件解析 -F04-11 数据处理 -F04-12 文本处理 -F04-13 身份验证 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。