词条 | 企业级搜索 |
释义 | 海量数据处理能力企业搜索应用源自当前信息规模的爆炸式膨胀和信息资源共享的普遍需求,特别是对占信息资源总量80%以上的非结构化数据而言,检索要应对两方面的挑战: 第一:当数据规模达到T级时,单台服务器已经远远不能满足数据存储和管理需要,因此需要部署多台服务器进行分布式存储,但必须实现统一检索; 第二:在多用户高并发访问的情况下,海量数据规模使检索性能急剧降低,必须采用多台服务器分担检索响应,保证检索效率。 调研结果显示,当前海量数据环境下的检索服务效率已经成为专利机构、图书情报机构、媒体和政府等信息资源集中的单位提供高质量信息服务的瓶颈。 企业搜索需要实现海量数据分布存储和高并发访问负载均衡,并支持两种手段的组合运用,可保证用户系统在海量数据和高并发环境下的分布式检索的高性能。同时,通过集群也能轻松实现消除单点故障的高可用系统,满足用户的可靠性要求。 企业搜索需要采用最新优化算法,改良了缓存(CACHE)机制,并针对近年软硬件平台发展,比如64位处理器和操作系统、多处理器(SMP)体系结构等实现了相应支持和优化,淋漓尽致地发挥出最新软硬件平台的优势,令单机环境系统性能较上一版本取得了成倍的提升。 可靠有效的高查全率和查准率用户在使用Google等互联网搜索引擎时,经常可以发现搜索引擎显示的搜索数目并不准确:搜索引擎显示搜索到几十万条信息,实际通过翻页可以看到展示出来的信息也就几百条。而且,有些明明符合条件的信息可能就是搜不出来。这与互联网搜索引擎面对网页数据特性所采取的PageRank、TOP N、结果预估等算法或策略相关。相应的,统计表明,搜索用户绝大部分的访问限于搜索结果的前几个页面。然而,企业搜索的应用环境、用户需求和互联网搜索有很大不同,企业搜索是为组织业务决策和运转而服务的,要做到精准,需要全面获取搜索结果并且不能有任何疏漏,因而需要保证高查全率和查准率。 企业搜索需要支持多种索引策略、全方位检索手段、智能检索辅助、内容相关度排序等功能,在保证用户查准的同时,提供100%查全手段,满足企业搜索引擎对查全和查准的双重要求。 结构化和非结构化统一搜索除强调信息检索的全面和准确之外,企业级搜索面对的另一个难题就是复杂的数据异构性,即组织中各种类型的数据存放在不同的系统中,既有非结构化数据也有结构化数据,既有关系数据库系统,也有OA系统、网站内容管理系统、文件系统、以及邮件系统等。因此,结构化数据和非结构化数据统一搜索和管理是重中之重。 线点科技企业搜索在数据存储方面提供多种结构化数据类型,检索方面实现结构化数据和非结构化数据的联合检索,并可以对检索结果进行分类统计,这些都是传统全文检索系统或者搜索引擎所不能提供的领先和创新的功能。在异构数据集成方面,需要提供了多种接口工具实现与不同系统的数据同步。 线点科技企业搜索也能够实现动态索引以及多级访问安全机制,保证企业搜索所必备的即时性和安全性,为搭建基于企业搜索的各类应用,如信息服务、知识管理、决策支持,应急预警等提供了功能强大、完备和可靠的核心支撑平台。 线点科技企业搜索平台
信息内容 防火墙内的信息 (内网信息),异构系统中的信息(如邮件、办公、数据库、ERP、CRM等,Domino) 互联网信息 核心技术 基于内容本身的相关排序更高的查全率和查准率要求 安全性 实时性 基于网页链接数的重要性排序(PageRank), 商业模式 软件+服务(License、SaaS、定制开发、收费服务等) 广告 终端客户 企业客户 个人用户 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。