请输入您要查询的百科知识:

 

词条 文档相似性检测工具
释义

文档相似性检测工具是通过比对源文档和目标文档相似性给出相似度结果的一种信息处理系统。由武汉大学信息管理学院出版科学系教师沈阳副教授研发的ROST文档相似性检测工具(为避免太敏感有时也叫相关性检测工具)可有效检测论文的抄袭相似情况,经过六年的研发(早期版本叫做网盗克星),终于推出了6.0版本,在定版过程中得到了武汉大学多位专家教授的宝贵意见。目前已投入约20余家单位测试和使用,反应良好,一定程度杜绝了有抄袭可能的论文发表问世。

目前的工作基础

国家自科基金资助,国内外已发表反剽窃论文6篇: —— Empirical Analysis on Chinese Academic Plagiarism,Abstract Paper,JCDL 2009.6(数字图书馆领域顶级国际会议) —— Research on Anti-plagiarism System and the Law of Plagiarism, International Symposium on Education and Computer Science (IEEE ECS 2009),EI/ISTP,2009.3 —— ROST反剽窃系统在期刊领域的应用与进展第二届数字时代出版产业发展与人才培养国际学术研讨会 2008.11 —— System of Twice-Gathering Information and Research of Information Fingerprint Hashtrie, EGTA 2008,EI,2008.9 —— The Research of Anti-plagiarism Monitoring System Model,(Wisa2007)Wuhan University Journal of Natural Sciences Vol.12 NO.5,Sept.2007,937-940 Springer出版 —— 剽窃和反剽窃的对抗 中国教育网络 2008.9 专利授权1项: —— 基于计算机网络的防转载或/和反剽窃监控方法(200610019074.5),2006.5.16 专利申请1项: —— 能加快反剽窃或转载文档检测速度的方法(200610166577.5),2006.12.31,授权

系统

基本原理:反剽窃软件自动将文档切割为多个50到200字(可自定义)的小文本,通过混合引擎将其与188亿个网页和490万篇文献进行模糊匹配,标示出每个文本块与文献库中的某些文献的最大相似度。由此软件统计出相似度≥95%(基本原封不动抄袭)与相似度≥80%(略作修改后抄袭)的字数所占总字数比例。我们把这个比例作为剽窃(相似)程度衡量指标。 系统需要XP系统,word2003环境。

优点

—— 覆盖面广,通过混合引擎覆盖约188亿个网页和490万篇论文。系统采用自研的ROST WebSpider和ROST SEAT算法实现了对互联网和部分期刊网的广度覆盖。 —— 模糊检测,柔性匹配,为防止抄袭者替换部分字符,删除部分标点符号,系统通过相似度来进行判定。系统采用自研的ROST Similar算法实现高速相似性检测和度量。系统采用自研的QingQing算法提取信息指纹,在P3、512MBPC上,分词速度为13MB/S,已在互联网提供评测版供业内评测。 本软件检测结果只能作为一个参考,可以使用表格右键导出详细检查结果发送给被检查本人,本软件不对是否剽窃做结论,只是告诉你与现存文献相似度高于80%的文字比例所占文章总数比例是多少。高于80%相似度的文字才是需要关注的。低于此值可以完全无视。 —— 规范引文及参考文献去除,降低误判可能性。 —— 自定义分块检测机制,将文章的每一文本块与其他文档的相似度都精确的表示出来了,每一文本块约为50字至200字不等(可自定义),以红色表示极度相似(相似度大于80%),一目了然,清晰醒目。当设为50个字一块时,可以在较低信息粒度上查找出可能抄袭或相似的文献。 —— 相似文档模块跟踪技术,可以通过简单操作直接定位相似文档中哪些内容被抄袭或者拷贝,直观明了。 —— 结果分析功能,自动分析文档相似结果,给出评价意见。 —— 多种文件格式支持,包括PDF、DOC、PPT、XLS、TXT等文档。 —— 专有数据文件保存,不用反复检测,浪费时间。

缺点

—— 本反剽窃系统不能覆盖世界上所有中英文文献,关于覆盖率与查全率的相关性问题,正在研究中。 —— 检测时间略长,本软件每检测200字需要7秒钟,一篇8000字的文档至少耗费约5分钟,需要一点点耐心。 —— 本软件检测结果存在一个小的误差,用更小的文档块进行检测,可以减少误差,但需要的时间会相应增加,经过我们在多家编辑部的试用情况,块数大小定为200字较为合适,此时误差率也是可以接受的,文档相似率一般是比实际的要低。 —— 在试用版中为了最大限度的检测出各类不同学科的最相关文档,本软件在某些情况下存在误判可能性,此时,用户可以通过调整设置中的两个参数来获得不同的相似指数结果。如果正式使用,请联系我们调整参数,将系统调整为较严格匹配,后面我们针对这一点会进行软件升级,并发行不同学科的版本。

相关研究

1993年,Arizona大学的Manber提出近似指数概念用于度量文件之间字符串的相似性,这个思路被很多后来的相似系统所采用。1995年美国Stanford 大学的Brin 和Garcia-Molina在数字图书馆项目中提出COPS系统与相应算法,奠定了反剽窃系统的框架基础。香港理工大学的Si和Leong建立CHECK原型采用统计关键词的方法度量文本相似性,并且首次把文档结构信息引入文本相似性度量中。2000年Monostori 用后缀向量存储后缀树搜寻字符串之间的最大子串并建立了MDR原型。目前国外Turnitin公司提供的英文反剽窃服务遍及九十多个国家,检索网页数量超66亿,用户达650万,支持世界最大的四家电子教学平台BlackBoard、WebCT、Moodle、Angel。 开发者争取推出面向学生的免费在线防剽窃服务,防止无意识抄袭的发生。

相关软件工具

ROST WebSpider ROST FulltextSearch ROST SearchEngine Analysis tools ROST WordParser ROST WordFrequency,等等, 共约20款小工具或软件,目前互联网约10000网站提供下载。

面向社会的服务

本系统和其他系统覆盖文献有80%以上不同,本系统通过混合引擎覆盖188亿个网页以及490万篇论文,建议用户使用多套系统检测论文。 由于服务器压力,目前不对学生提供检测服务,对单位用户和高校教师开放免费测试,

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/12 18:16:33