词条 | 汇智复合报库 |
释义 | 第一部分 复合报库 第二部分 数据制作 一、PDF提取 二、其它数据 三、特征提取 第三部分 数据管理 一、数据存储 二、数据添加 三、数据删除 四、数据合并 五、数据导出 第四部分 数据浏览 一、最新数据 二、日期选择 三、版面选择 四、热门文章 五、版面浏览 六、版面导航 七、文章选择 八、文章浏览 第五部分 数据检索 一、简单检索 二、高级检索 三、逻辑检索 四、检索结果 第六部分 后台管理 一、日志管理 二、评论管理 三、热词管理 四、用户管理 五、角色管理 六、联想词管理 第一部分复合报库复合报库系统的简单介绍 第二部分数据制作一、PDF提取:本公司提供PDF文件的数据提取工具,可以从PDF文件提取出文字和图片,创建特定格式的XML文件,该文件可以直接提交到系统的数据服务器添加到系统数据库中。 ⑴区域识别:任意打开一版PDF文件,系统自动将其划分为若干个区域块(或者叫做文章块):相邻且相同字体字号的文字块被划分到一个区域内,图片单独划分为一个区域。 ⑵特征识别:在文章块上单击鼠标左键,系统会根据特征配置文件的参数设置,自动把文章块标识为相应的特征项,并把文章框里的内容相应地复制到左边栏的特征框内,被选中的文章框变成红色。 本采集系统支持设置任意多个不同数据类型的特征项目,主要通过各个特征项在PDF文件中所使用的字体信息,如字体、字号、颜色和字体属性等进行识别。 ⑶特征修正:如果某个文章块符合2个或者2个以上特征项的设定标准,系统将弹出一个选择框供用户选择;如果选定的文章块不符合任何特征项的设定标准,或者系统根据设定标准判断的结果出现偏差,可以通过单击右键把该文章块定义为指定的特征项。 ⑷文章转版:重复⑵和⑶,直到文章的所有特征项目和正文选择完成。如果文章内容有转版(系统假定每一个PDF文件对应一个版面): ①下转:后续的文章内容转到另外一个版面时,单击文章正文的“下转”标识(通过特征配置文件设置),系统将弹出一个“转版到”版号选择窗口,设定好文章内容的下转版号以后单击“确定”按钮。 ②上接:文章内容自另外一个版面转过来时,点击文章正文的“上接”标识(通过特征配置文件设置),系统将弹出一个“上接”内容选择窗口,设定文章内容的上接版号;如果选定的版面有多篇文章转出,还应该为本文章选择一个上接的文章标题。设定好以后单击“确定”按钮。 ⑸文章完成:上述所有信息全部确定好以后,点击“确定”按钮,系统把所选择的所有文章块合并成一个大的矩形框,形成文章区域,并在其上方用半透明的绿色布遮住,边框用黄色显示,用以表示一篇文章采集完成。 ⑹版面完成:重复⑵到⑸,直到整个PDF(版面)采集完成后,点击“导出”按钮,系统根据该版采集到的文章内容创建特定格式的XML文件,同时创建采集的图片文件和PDF的版面缩略图。最后把创建的所有文件移动到配置文件指定的目录下。 ⑺采集结果:采集到的结果文件(XML、PDF和图片文件)可以复制出来用于其它应用,也可以在本采集系统中点击“上传”按钮,让系统自动把它们打包发送到数据服务器,由数据服务器处理并以新的数据组的形式添加到系统数据库中。 二、其它数据:本系统的数据服务器可以从自定义格式的文件(.TXT纯文本文件或者XML文件,包括ANSI编码和Unicode、UTF-8编码)中解析出系统数据,但需要在系统的构建之初提供该格式的足够样本文件,用以制作数据解析器程序并嵌入到本系统中。 三、特征提取:本系统的特征提取器可以自动为文章提取关键词和内容摘要,也可以自动为文章分类,并且一起添加到文章特征项目中。如果需要,这些提取工作可以在数据处理的过程中自动完成,不需要人工干预。 第三部分数据管理一、数据存储:系统数据库中的数据采用2级管理模式进行管理。 ⑴报刊:系统支持在数据库中同时存在若干种不同的报刊(书籍,或者其它类型)的数据,浏览和检索时可以对其中的部分(一种或者多种)或者全部进行操作。高级检索的检索范围一般以报刊单位进行选择。 ⑵数组:每种报刊下面又可以同时有若干个数据组存在,数据的添加、删除和合并都以数据组为单位。数据导出的内容一般以数据组为单位进行选择。 二、数据添加:目前系统支持以下几种向系统数据库中添加数据的方式,每一次数据添加将在系统数据库中创建一个新的数据组。 ⑴自动上传:主要适合利用本系统配套的数据提取工具从PDF提取数据后直接确定上传到数据服务器的情况,参见“第二部分 数据制作”。 ⑵手动上传:主要适合脱离PDF数据加工工具,用其它方式加工并处理好数据后再上传到数据服务器的情况。用数据处理工具将加工好的数据打成压缩包后(用FTP上传工具)上传到数据服务器的指定位置,由数据服务器添加到系统数据库中。 ⑶网页指令:在数据组管理模块点击“入库”按钮,向数据服务器提交数据所在位置的必要信息,通知数据服务器到指定位置取得数据并添加到系统数据库中。 三、数据删除:当系统数据库中的数据不再需要时,可以将其从系统数据库中删除。数据的删除最小以数据组为单位。在数据组管理页面,勾选数据组前面的复选框,然后点击“删除”按钮即可将选中的数据组从系统数据库中删除。 四、数据合并:当系统数据库中的数据组太多时,可以将若干个数据组合并成一个数据组,以便于系统的管理。只有同一报刊下的数据组才能合并。在数据组管理页面,勾选数据组前面的复选框(2个或者更多),然后点击“合并”按钮,系统将进行下列工作: ⑴合并:将选中的这些数据组合并成一个数据组。 ⑵删除:将选中的这些数据组从系统数据库中删除。 ⑶添加:将新合并成的数据组添加到系统数据库中。 五、数据导出:可以将系统内的数据导出为外部文件,以做他用。 ⑴导出格式:系统支持将数据导出为以下格式: ①系统数据:本系统可以直接添加到系统数据库的格式,方便将数据移植到其它的数据服务器数据库中。 ②光盘系统:本公司光盘版的信息仓储系统所使用的数据格式,将导出文件下载并解压缩以后就是一个完整的本系统的光盘子系统,可以制作成光盘的形式发布。 ③文本文档:将文章内容导出为纯文本格式的文档,支持ANSI和Unicode编码方式。该格式可以通过模板定义导出内容和格式,但有可能会损失一些图表信息。 ④Word文档:将文章内容导出为Word格式的文档。该格式可以通过模板定义导出内容、格式和版式,并且保留所有的图表信息。 ⑤PDF文档:将文章内容导出为PDF格式的文档。该格式可以通过模板定义导出内容、格式和版式,并且保留所有的图表信息。 ⑵导出内容:可以通过下列方式选择导出内容。 ①指定数组:系统数据库中的部分(一个或者多个数据组)或者全部数据组所包含的文章。注意:每次只能选择同一种报刊下的不同数据组。 ②检索结果:本用户所有检索结果中的部分(一个或者多个)或者全部所包含的文章(选择多个检索结果时,取它们的并集)。 ③自定义类:用户自定义分类中的一个或者多个条目所包含的文章(取各个条目所含文章的并集)。 ④特征条目:某个特征项目下的一个或者多个条目所包含的文章(取各个条目所含文章的并集)。注意:每次只能选择同一特征项目下的不同条目。 ⑶文件下载:导出的文件存储在服务器的指定位置。用户可以在“下载管理”模块查询自己的所有导出任务(未完成任务的处理进度及已完成任务的导出文件下载)。导出任务完成以后,用户可以将这些文件下载到本地,并且可以在下载完成后删除这些文件以释放服务器的磁盘空间。 第四部分数据浏览一、最新数据:系统缺省显示最新入库的数据内容(对于报纸,一般都是以版为单位显示,所以总是显示当天的第一版;对于杂志,则可能以最新一期的分类目录进行索引),包括版图和该版的文章列表。 二、日期选择:系统提供“往期查询”功能。 ⑴相邻日期:点击“ ”或“ ” 可以快速地选择与当前日期相邻的前一日期和后一日期(系统会自动跳过没有数据的日历日期)。 ⑵任意日期:点击日期编辑框或者“ ”标识则可以选择任意日期(有数据的日期显示为黑色,没有数据的日期则显示为灰色)。 ①当前月份:日历缺省显示当前月份,点击标题行的“今天”可以快速回到当前月份。 ②相邻月份:点击标题行的“上月”或者“下月”可以切换到当前月份的上一月份和下一月份。 ③任意年月:标题行下面的下拉框中列出系统数据库中所有有数据的年份和月份,从中可以选择任意的年月。 三、版面选择:对于报纸,系统以版为单位显示版面图和文章列表。 ⑴相邻版面:点击版面图下的“上一版”或“下一版”可以快速地选择与当前版相邻的上一版和下一版。 ⑵任意版面:点击页面右侧的“今日版面”中的任意版号和版名可以选择当前日期的任意一个版面。 四、热门文章:系统可以分别列出当天、最近一周和最近30天内最热门(被点击次数最多)的若干文章,点击其标题即可浏览其详细内容。 五、版面浏览:一般情况下,系统显示图片版的版面,但也支持PDF版的版面供下载和浏览。 ⑴当前版面:点击版面图下面的“ ”标识,可以下载并浏览当前版的版面PDF。 ⑵任意版面:点击“今日版面”下任意版号和版名右侧的“ ”,可以下载并浏览该版的版面PDF。 六、版面导航:点击页面顶部的“版面导航”,系统将列出当前日期下的所有版面图及每个版面所包含的文章列表。 ⑴翻页:列表提示当前页码和版面图的总页数,可以点击“首页”、“末页”翻到第一页和最后一页,点击“上页”、“下页”翻到相邻的上页和下页,也可以输入页码数值,直接翻到指定的页。 ⑵文章:点击版面图的文章区域(红色矩形框)或者文章列表中的标题可以浏览文章的详细内容(参见“文章选择”)。 七、文章选择:⑴区域选择:将鼠标移动到版面图的某篇文章位置上,系统就会用红色矩形框框住鼠标所在文章的区域,并显示该文章的标题,点击该文章区域就可以浏览该文章的详细内容。 ⑵标题选择:点击文章列表中的文章标题可以浏览该文章的详细内容。 八、文章浏览:⑴版面位置:左侧版面图用蓝框显示当前文章在版面上的位置。 ⑵文章摘要:文章摘要部分显示的是文章的特征项及其取值,点击“文章摘要>>”可以显示或者将其隐藏。 ⑶正文文字:点击顶部或底部的“ ”或者“ ”标识可以放大或者缩小文章正文的文字,点击“ ”标识则可以快速地将其恢复到系统的缺省大小。 ⑷本版文章:点击顶部或底部的“上篇”或“下篇”可以快速切换到本版内与当前文章相邻的上一篇或下一篇文章,“首篇”或“末篇”可以快速切换到本版的第一篇或最后一篇文章;点击版面图下面本版文章列表中的任意一个文章标题则可以阅读本版内的任意一篇文章。 ⑸主题文章:与当前文章拥有同一主题的文章。系统列出最新的若干篇与当前文章同主题的文章的标题,点击即可浏览。 ⑹相关文章:与当前文章有相关关系(由本系统特有的相关算法计算得出)的文章。系统列出最新的若干篇与当前文章相关的文章标题,点击即可浏览。点击“更多>>”则可以浏览更多的相关文章。 ⑺文章评论:注册用户可以对浏览的文章发表评论,也可以查看其它用户对当前文章的评论。拥有评论管理权限的用户还可以按用户或者文章查询用户的评论信息,也可以选择删除指定的用户评论信息。 ⑻自定义类:每个注册用户都有自己的自定义类表,在浏览文章详细内容时可以把当前文章添加到自定义分类中,以便以后分类浏览和导出等。注册用户可以随意增加或者删除自己的自定义类条目,也可以自由地增加或者删除各个条目所包含的文章。 ⑼特征浏览: ①特征文章:点击“文章摘要”内特征项目的值,系统将列出具有相同特征条目值的最新的10篇文章,点击其标题即可以浏览该文章。 ②特征条目:点击页面菜单栏的“特征浏览”项,系统就列出可以浏览的特征项目。 选择其中的一个,并点击“确定”按钮,即可以列出该特征项目下各个条目所包含的文章。 ⑽图片浏览:考虑到版面的美观和浏览的方便,文章内容中的插图一般总是控制在页面的宽度以内显示。因此浏览文章内容时看到的插图有可能是缩小以后的图片。单击该插图,可以在新的窗口中打开原始大小的图片。 ⑾高清下载:考虑到网页浏览时的速度和数据保护的需要,一般情况下用户浏览的图片和版式PDF文件都是普通清晰度的。拥有高清下载权限的用户如果需要使用高清晰度的图片和版式PDF(比如用于印刷等),系统可以提供高清晰度图片和版式PDF的对应下载功能(单篇或者批量下载),当然这需要数据制作的支持。 ⑿国际语言:本系统同时支持多种国际语言(指网页框架,不包括文章内容的语言转换。目前支持中文和英文),可以通过语言标签随意切换。 ⒀其它功能: ①复制内容:将当前文章的内容复制到系统剪贴板。 ②发送邮件:将当前文章的内容以电子邮件的形式发送到用户的注册邮箱。 第五部分数据检索一、简单检索:系统在版面文章目录页和文章内容页提供简单检索条件编辑框,在该编辑框中输入检索条件,并点击 按钮,即可对文章正文和标题进行全文检索。 二、高级检索:点击 按钮右侧的“高级检索”,将进入系统的高级检索条件编辑页面。这里可以指定日期区间,并分别对文章标题、作者和正文(全文)指定检索条件,还可以为文章正文检索指定联想词组(由系统提供)。各个特征项目之间的检索条件是“并且”(逻辑“与”)的关系,即所有条件必须同时成立。 三、逻辑检索:在高级检索页面点击“逻辑检索”,可以进入逻辑检索条件编辑页面。逻辑检索除了可以对更多的特征项目设置检索条件以外,还可以: ⑴报刊类型:如果系统数据库中存在多种报刊,进行逻辑检索时可以选择其中的一种、几种或者全部。 ⑵逻辑关系:选择各个特征项目之间的逻辑关系。逻辑关系包括下列3种: ①并且:逻辑“与”,前后2个条件必须同时成立。 ②或者:逻辑“或”,前后2个条件有一个成立即可。 ③并且不:逻辑“否”,前一个条件成立,而且后一个条件不成立。 ⑶多个条件:点击条件编辑框右侧的 号,可以同时为每个特征项目设置多个检索条件,并且可以选择2个检索条件之间的逻辑关系。点击其后的 号可以删除最后一个检索条件。 ⑷检索范围:系统可以记录用户每次检索的检索结果,并且可以给每次的检索结果命名,下次检索时可以选择在其中任意一次检索的结果范围内进行二次检索。 四、检索结果:系统用目录列表的形式列出检索到的文章,并显示出检索条件、检索所用的时间、检索到的文章数和显示页数(在文章目录的底部)。 ⑴目录翻页:每页只能显示指定篇数(例如30篇)的文章信息,可以点击“上一页”和“下一页”翻到相邻的页,也可以点击之间的页码直接翻到指定的页,还可以点击“首页”快速地翻回第1页(出于检索服务器资源和效率的考虑,系统可能并不能列出所有检索到的文章,例如只能最多翻到第10000篇)。 ⑵浏览文章:点击文章标题即可浏览对应文章的详细内容。 第六部分 后台管理 一、日志管理:系统可以记录所有用户使用本系统的日志信息,拥有日志管理权限的用户可以查看并管理系统日志。 ⑴简单日志:用户每登录本系统一次即记录一条日志,忽略用户的其它操作。 ⑵详细日志:详细记录每个用户的每一次操作。 ⑶日志查询:对于简单日志可以按指定用户查询其登录信息,也可以指定时间范围查询所有用户的登录信息;对于详细日志,可以按指定用户的指定操作查询日志信息。 ⑷日志统计:自动统计系统的历史访问人数和今日访问人数。 ⑸删除日志:可以有选择地删除系统的详细日志,简单日志不能删除。 二、评论管理:拥有评论管理权限的用户可以浏览并删除用户对系统内数据的评论信息。 三、热词管理:系统热词表中一般列出目前比较热点的词汇,拥有热词管理权限的用户可以管理(添加或者删除)系统热词表。 当文章内容中出现热词表中的词汇时,系统将给出一个连接。点击该连接,弹出窗口中显示该词可以连接到的标题,点击标题即可连接到相应的网页。 四、用户管理:系统的注册用户由用户在注册时添加,拥有用户管理权限的用户可以查看、删除并修改注册的信息。 ⑴查询:可以按用户名和用户角色(被分配为指定角色的用户)查询用户名称、性别、邮箱及当前角色(拥有的权限)等信息。 ⑵删除:可以选择删除指定的注册用户。 ⑶角色:可以通过给用户分配不同的角色而给用户赋予不同的权限。 五、角色管理:用户角色用于给注册用户分配系统权限,系统用户管理员通过给注册用户分配不同的角色赋予注册用户不同的权限。 拥有角色管理权限的用户可以添加或者删除用户角色,也可以修改角色所拥有的系统权限。每个应用系统的权限划分可以不同,但需要在构建该系统之初确定,系统的任何用户都不能增加或者修改。 六、联想词管理:联想词用于对文章正文和文字型特征项目(比如文章标题和文章摘要等)的检索。在用户要求检索联想基词的同时,系统也会把联想词加入检索条件一同检索。拥有联想词管理权限的用户可以添加或者系统级的联想词表,每个用户还可以拥有自己的、不同于其它用户的联想词表,由用户自己管理。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。