词条 | DIPS数字文献系统 |
释义 | 核心技术(1、图文数据库 2 、数字化加工和数据处理 3、资源的深层揭示与检索 4、个性化桌面 5、个人图书馆) 其他主要技术(数据库内容与文献格式无关 资源导入和导出 检索手段和技术指标 系统数据采用基本标准 二次开发接口支持 基于IP地址的访问权限控制 数据库模板功能 开放的词表和词典管理 数据库异地存储、备份、恢复功能) DIPS—数字文献处理系统,是由北京新星快威数码技术有限公司开发,是面向图书、情报、档案等领域数字化建设的基础平台软件。DIPS以全文检索技术为基础、互联网内容管理为核心,集成了信息资源的采集挖掘、加工整理、数据库建设管理、内容发布与检索利用等功能,能够满足大容量数据及多用户并发的要求,是新一代集文档影像的数字化加工、数字内容管理和全文检索为一体的信息开发管理平台。 系统简述该系统有二大技术特点,一是在国内率先提出图文相关联的理念并成功实现了“图文数据库”技术,解决了图像文献不能进行内容检索的难题;二是采用了支持基于PDF格式文档的全息数据库,做到检索直接命中到页,并对检索结果进行标注显示。 作为基础平台软件,系统的信息发布做到了数据与界面分离、信息处理做到了内容与管理数据分离;系统技术实现做到了三个开放、三个标准:数据结构开放、程序接口开放、资源加工处理开放;数据格式符合国际标准、数据描述符合国际国家元数据标准、数据传输数据安全控制符合国家安全标准。 使用DIPS及其相应的辅助工具,可以将图书馆及文献机构中已有的各种海量信息资源,通过专业化的加工、转换、聚类、去重、整合等等,快速构建起基于互联网的专业文献信息资源库,并对这些资源进行统一管理和维护;利用DIPS提供的强大的全文检索技术,为使用者提供简便、快捷、准确、个性化的信息服务;同时,可以利用DIPS提供的收费管理功能和DIPS的网络发布系统,向社会提供有偿的特色信息服务,让信息资源发挥出更大的应用价值。 DIPS目前已成功拥有国家图书馆、国防科工委、机械工业信息研究院、中国化工信息中心、中国电子科技集团等高端用户,以及国防大学、中国科技大学、南京大学、合肥市图书馆等100百多家高校图书馆和省市级公共图书馆等用户。该系统同样适用于情报、档案、司法、政府机构、专利和标准等部门,以及企业信息化的需要。 系统组成DIPS由DIPS数据加工、DIPS内容管理和DIPS网络发布三个子系统组成。它们既相对独立又相互关联,分别形成了数据加工、数据管理、数据发布三个不同的应用面。 DIPS数据加工系统 是C/S结构的网络系统,一个或多个客户端用户能够独立或协同完成纸质资源的数字化加工,可以对各种已有的电子资源(如:TXT纯文本,PDF、HTML、DOC等格式化文本,MARC数据,ODBC关系型数据,JPEG、TIF、BMP等图像数据,MP3、MPEG等多媒体数据,各种资料光盘数据及其它国内自定义主流格式数据等)进行的批量处理、转换、导入等获取系统原始数据,再经过对数据进行(识别、压缩、)装订、标引、校对、审核等深加工处理,形成DIPS数据库的源数据(入库文件)。DIPS数据加工系统具有流程清晰、责权分工控制明确、可加工资源类型丰富以及允许大量批处理环境灵活设置等特点。 DIPS内容管理系统 是C/S结构的网络系统,一个或多个客户端用户能够独立或分别完成系统的数据库、库模板、入库文件、词表、词典和用户六类对象的数据维护、管理及应用。(例如新建数据库、动态加载DIPS数据库数据、数据库数据的维护、记录的导出转换、记录下载控制、索引建立、库体操作、入库文件的刷新追加、发布管理设置、模板创建使用、分类导航或关联信息的设置、联想检索词典的创建维护、密级安全控制、用户注册、权限分配等等)所有关于DIPS数据库的管理都在这里完成。系统具有结构设计先进、安全控制严密、管理灵活、维护方便及操作简单等特点。 DIPS网络发布系统 采用B/S结构和标准IE浏览器,完成DIPS数据库的网上检索和应用服务。DIPS的网络发布系统提供图片类资源、文献类资源、多媒体类资源、综合类资源等多套显示模板,根据用户所建数据库的特性自动生成发布界面。系统允许用户或按用户的要求对所生成的网页进行个性化修改,允许用户按自己的需求自建新的发布模板;利用系统提供的个性化设置和信息推送功能,动态生成用户所关心的信息,满足用户的个性化需求,从而进一步提高文献资源的利用率。系统具有发布自动化、界面个性化等特点,充分展现DIPS的检索和应用优势。 核心技术1、图文数据库让图文自动关联,以文本作为检索依傍,图像作为检索结果。以经济便捷的手段获取正确率不低于 95% 的文本并与原稿图像相关联构建数据库建立索引,读者通过检索文本获取双层 PDF 原稿,从而达到加工高效、检索便捷、所得结果精确的目的。 2 、数字化加工和数据处理百页纸质图书 20 分钟轻松完成从纸张到网上动态发布,双层 PDF 技术实现全文检索和检索结果反显标注;百万级二次文献信息自动转换导入;格式化电子文档批量转换,自动生成目录结构;多媒体资源加工实现导航提示,自动标引插入。 3、资源的深层揭示与检索DIPS 系统采用核心字段列表浏览、二次文献窗口显示和全文资源阅读器管理等多层揭示。所有信息不仅实现高效的全文检索,而且提供目录导航、直接命中到页和检索点反显。此技术对大部著作、系列丛书等海量数据尤为重要,是本公司率先开启对内容深层揭示的先河,直到目前依然独家拥有。 4、个性化桌面服务个性化是专业版 DIPS 系统的重点。读者根据访问权限,自行配置检索界面、信息栏目、信息频道等;自定义“个人喜好”(“关键词”、“分类”、“资源库”等);自行设置“我的订阅”、“我的资料”、“系统推送”等资料夹。 5、个人图书馆专业版 DIPS 系统的 My library 技术,实现了动态信息推送、主动服务等个性化功能,个人图书馆不受机器、地域限制,一旦登录、即刻拥有。个人图书馆由“我的订阅”、“我的资料”、“系统推送”等资料夹组成。 “我的资料”——对系统中感兴趣的信息资源实现一键收藏;“我的订阅”——根据读者设定的“关键词”、“分类”和时间范围,自动更新内容;“系统推送”——以读者和资源自身静态信息为基础,结合读者每次实际应用轨迹,进行统计和分析,形成搜索决策获取信息,自动更新资料夹。 其他主要技术数据库内容与文献格式无关传统的全文检索系统只处理文本信息,对于象PDF格式的文档,只对元数据做索引,文献信息按对象数据处理,不能对其进行全文检索。个别系统即使对该PDF文档吸取文本信息做索引,也只能做到对该文献检索命中,但并不能表示命中点的所在。 DIPS系统采用的图文关联技术,不但对文本型、图文关联型和PDF等全息型文献做到检索记录直接命中到位(页),结果反显,而且在同一个数据库允许每条记录有各自不同格式的文献,这是全文检索用于内容管理的重大突破。 资源导入和导出DIPS的数据符合国际通用标准和规范,能够解析导入国内外主流数据格式,可以按用户和读者指定的标准格式导出系统的数据,提供参考咨询和信息传送服务。 检索手段和技术指标检索手段:主题词关键词检索、分类导航检索、内容关联检索、单字段逻辑运算检索、多字段逻辑组合检索、二次渐进检索、模糊匹配检索、跨库跨平台(联邦)检索以及基于开放词典的联想检索等等,检索结果可按要求自动进行相关度排序。 相关技术指标: ① 检索速度: 10 亿汉字平均响应时间为 0.30 秒左右; ② 索引膨胀率:空间膨胀率为 -0.1 至 0.3 ; ③ 容量指标:支持 65536 个库,单库 1024 个字段,单库 10 亿条记录,单字段 64M 字节。 系统数据采用基本标准① 数据存储格式( TIF 、JPG 、TXT 、PDF 、MP3 、WMA 、MPG 、WMV 、RM 、SWF 等); ② 数据交换标准( DC 、 XML 、 MARC 、 ODBC 等); ③ 数据传输协议及安全( Http1.1 、 TCP/IP 、 SSL 等)。 二次开发接口支持系统提供开放的 API 接口,对需要进行导入或导出的新格式数据,用户可以进行二次开发或者合作开发以实现其功能。 基于IP地址的访问权限控制除了密级管理和权限控制以外,系统可通过对 IP 地址的有效控制,设置不同区域(如校内校外、图书馆内馆外)之间的用户访问权限(免登录、限制登录、限制访问)。 数据库模板功能系统提供丰富的数据库建库模板,用户可以直接使用数据库模板或在此基础上进行修改,方便快捷地完成自己理想的数据库结构。系统允许用户自己新建库模板来扩充模板库,进一步满足用户个性化需求。 开放的词表和词典管理词表是分类和分类导航检索的基础,词典是系统联想检索的依据。系统为词表和词典对象提供一整套管理和维护功能。 数据库异地存储、备份、恢复功能系统提供安全实用的数据库异地存储、数据备份和数据恢复等功能,保证数据安全、缓解服务器压力,满足用户对海量数据进行分布式存储和管理的要求。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。