词条 | 域内资源整合系统 |
释义 | 域内资源整合系统(Domain Resources Integration System, 简称DRIS)是由华中科技大学图书馆数字化研究部在2004年提出一种用于构建下一代互联网信息检索系统的理论方案,其源于对数字图书馆建设中一些基本问题的解决,后来发展成为解决当前整个互联网信息检索问题的理论体系。目前该理论方案是IETF构建“互联网信息检索基础构架”的提议方案,同时也在湖北省科技文献共享平台的等项目建设中得到了部分应用。 域内资源整合系统简介域内资源整合系统理论的关键点在于采用了基于DNS的分层式结构来索引互联网的信息资源和服务资源,这样一方面避免了目前Google那样集中式体系在更新率、覆盖率等方面的瓶颈性问题,另一方面又避免了完全分布式体系无法提供高质量检索服务的问题。 域内资源整系统的基本结构DRIS采用和DNS系统类似的基本体系结构,是一个分层的信息资源管理系统。DRIS将互联网分为一个个独立的模块“域(Domain)”,每个域内建立一个信息中心节点,将本域内的所有信息资源进行索引。这其体系结构如下所示。整个系统分为三层,第三层为DNS的三级域,一般对应于某个组织机构,如一个大学;第二层一般对应于国家的各个主干网,如CERNET;第一层则对应于某个国家。 在具体的资源整合方面,域内资源整合系统主要采用OAI等元数据整合技术、ZING等检索接口整合技术,以及传统的数据库和全文索引技术,根据不同层次不同节点的特点,灵活选用不同的资源整合技术,作为域内资源整合理论的一个典型应用,“基于DNS网页引擎”就明确显示了域内资源整合系统的特点和优势。 在DRIS/DNS的基本体系结构下,该搜索引擎系统在第三层采用了传统的引擎技术,如在一个高校内构建一个完整的包含Spider/Indexer/search interface的搜索系统,而在第二层,如CERNET内,直接收集从第三层提交的索引数据即可,而无需再设置Spider进行网页下载,而第一层只需要记录第二层的检索接口信息,而执行建设时候按照“元搜索引擎”的方式获取数据即可,其功能结构如下图所示: 这样分层体系结构的优点是显而易见的,在基本性能方面,由于网页下载都是在第三层进行的,一般都是本地的局域网,下载更新速度都很快,然后这些底层节点上传索引数据到第二层节点,而第一层节点由于只记录第二层的检索接口信息,基本不需要很多更新,这样总体上完全可以保证全部数据每天更新,而只要有域名,也可保证所有的网页都被索引,目前Google等主流搜索引擎平均一个月的整体更新速度,而不到40%的索引率形成鲜明的对比。此外,由于索引数据一般均远小于原始数据,而索引接口数据更小,基于DNS的搜索系统高层节点也不需要庞大的数据中心支持,随着互联网信息资源的爆炸式增长,该系统的优势将会更加明显。 而在服务提供方面,该系统的每个层次的每个节点均提供不同范围的搜索服务,如一个高校的搜索引擎服务,目前通用搜索系统很难在每个节点都保证很高的更新频率和索引率,而该系统却完全可以根据具体需要进行更新和索引,还采用一些专门的排序算法来提高检索服务质量,这些都为该系统的实施提供了基本的需求和驱动力。 域内资源整合系统的理论体系组成“域内资源整合系统”主要通过标准协议来体现,其具体包括以下几个部分: 1 检索协议和数据标准。一是分布式检索系统协议,用于定义一个与平台无关的检索接口和一个资源描述标准以及相关的访问控制标准等。二是元数据采集系统协议,相应的协议将定义一个类似于OAI标准的元数据结构,此元数据可以兼容目前大部分元数据标准,具体的数据采集协议也将详细定义。三是数据索引标准协议,对于一般的资源信息,一般采用DC标准及其扩展进行索引,对全文的索引目前按照Lucene的文本索引格式。 2 域内资源整合系统体系结构标准。互联网上的任何资源只要能够提供标准的检索接口或兼容元数据采集标准,其均可根据不同情况纳入DRIS系统。在此将定义DRIS的整体构架,各个节点之间的组织建立、协调、备份关系等等。 3 互联网Web服务索引系统标准。DRIS的各个节点都提供标准的Web service检索服务,并逐级提交服务信息,形成分层式的UDDI索引系统,因此很容易将该系统进行扩展,使其可以索引互联网的其它各类Web服务。 4 基于DNS的网页搜索引擎标准。网页资源是互联网上一种最主要的公共信息资源,由于其分布式、数据量庞大、索引方式特殊的特性,因此将详细定义专门的网页资源检索系统,具体包括其不同层次节点的排序算法,数据提交规则等。 5 DRIS和IPV6系统。IPV6是下一代互联网的最主要特征,而且IPV6还在不断改进中,任何有利于Internet发展的内容都可以纳入其体系之中。目前互联网正由“通讯网络”向“信息网络”转变,信息检索服务作为一项互联网提供的一种最重要的服务,更需要在下一代互联网体系结构中进行进一步改进。DRIS完全可以纳入IPV6体系中,目前可以考虑将DRIS的数据流赋予较高的级别等。 域内资源整合系统的实践2005年国家发布了《2004-2010年国家科技基础条件平台建设纲要》,标志着国家科技基础条件平台建设工作全面启动。湖北省的条件平台建设也开始启动,华中科技大学图书馆参与主持了湖北省科技文献信息资源共享平台项目建设”,一期以省内高校资源的整合利用为主,同时探索高校资源向社会提供服务的手段。 由于各个参建单位资源情况复杂,而且涉及商业数据库商,如何权衡各方利益是项目建设的关键,而一个清晰的技术方案则是项目成功的基本保障,该课题组提出了以“域内资源整合系统”为技术基础的建设方案,建设分为中心节点和子节点两大部分。中心节点主要完成平台所有资源的存储整合,可以提供所有资源的检索服务,包括文献传递,查新等信息服务。子节点则主要作为各个参建图书馆的自有资源整合系统,提供统一检索服务。子节点和中心节点直接的数据可以实现自动交互,而对用户而言,在子节点查找信息过少或没有检索结果时,就可自动转向中心节点进行查询。该技术方案成本较低,提高了参加馆的积极性,基于该平台展开的个性化信息检索服务,智能虚拟参考咨询服务等研究开发也给用户以良好的检索体验。 域内资源整合系统的发展与未来一项技术理论方案能否获得最终实施,从根本上仍取决与其是否能够满足迅速发展的社会需要,是否符合技术本身的发展规律。就是互联网信息检索系统而言,在技术上,目前集中式体系结构的搜索引擎越来越难以及时跟踪WWW的每一处的变化,采用一种全新的体系结构势在必行。在商业模式上,目前的搜索引擎都是需要盈利企业而不是公益事业单位,它们多靠在本就不太令人满意的搜索中插入广告来赚钱,盈利压力和用户权益两者几乎成了所有商业搜索引擎不可调和的矛盾,08年9月出现的百度三鹿奶粉事件就是这种矛盾的典型体现,现有的搜索商业模式显然很难再继续支撑搜索引擎企业的快速发展。而作为网络技术,从TCP/IP到E-mail等等都是完全开放式的技术,而更好的商业服务则建立在这些开放技术之上,这正是互联网络能够长期快速发展的一个基本因素。总而言之,更高效的的体系结构,公共的、全开放的,应是是未来互联网信息检索系统的基本特征。 对于域内资源整合系统理论主张“信息检索应成为互联网的内在功能,而每个人都应有自己的搜索引擎”,这和未来互联网信息检索系统的技术发展趋势是完全一致的,而该系统的转换成本也非常低,一旦商业模式等各方面条件齐备,只需要将现有各个层次、各个节点的DNS服务升级为可以索引资源和服务的DRIS服务器即可,相信该理论方案必定会在未来互联网信息检索系统的研究和建设中占有重要地位。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。