词条 | IDGS |
释义 | 概念IDGS系统(Information Discovering and Gathering System)是为了在WWW上自动进行中英文技术资料的搜集而设计开发的。IDGS能够根据用户所提供的训练文本和系统设定,提取目标资料的特征,并根据目标特征自动在WWW上进行资料搜集,然后将所搜集到的资料经分类整理导入文档库,供用户查阅。IDGS系统能够保持资料库的不断更新,能够向用户提供及时的网上技术资料服务。系统采用了向量空间模型和基于统计的特征提取技术。 系统结构系统由如下模块组成: (1)语料库维护模块:负责管理用于目标确定和特征提取的大量训练文本,其主要功能有搜集目标的建立、删除,训练文档的添加、删除、浏览、索引和分类。 (2)词典维护模块:负责管理用于分词和词频统计的主词典、同义词词典和蕴含词词典,其主要功能有词典建立和词条的添加、删除。 (3)特征提取模块:利用词典对训练文本进行词条切分和词频统计,并根据词频分布,提取代表采集目标的特征项集和相应的权值,生成特征矢量表。 (4)Robot模块:将WWW视为一有向图,根据有向图遍历算法在WWW上漫游,并将漫游到的且符合一定条件的文档下载,即实现原始文档的采集。 (5)特征匹配与分类模块:提取原始文档的特征矢量,并计算与目标矢量的相似度,将符合阈值条件的文档经进一步分类后存入数据库,供用户查阅。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。