学术文复制检测的进展新方法

点赞:18224 浏览:81867 近期更新时间:2023-12-19 作者:网友分享原创网站原创

[摘 要]综述国内外学术论文复制检测的研究现状,针对存在的问题提出以后研究的新思路:构建某一学科领域学术论文语料库;以信息论为工具,针对某学科领域建立基于学术论文语料库的统计语言模型;结合学术论文抄袭剽窃的特点,通过赋予描述资源对象语义信息的不同元数据项以不同的权函数,设计相似度算法;使用Lemur工具箱,在标准的TREC文档集上对模型和算法进行检验;与Turnitin侦探剽窃系统进行实验对比,评价该模型和算法的有效率和效果.

[关 键 词]学术论文 复制检测抄袭剽窃检测统计语言模型文本相似度算法

[分类号]TP391.1

自从方舟子的“新语丝”使原本长期存在于学术界的学术不端暴露出来之后,学术论文抄袭剽窃引起社会的广泛关注.抄袭剽窃的表现形式多种多样:有些只是在语言文字的表达形式上做手脚,换成同义词或颠倒语句的表达顺序,在文章框架、主要观点和主要论据上却没有大的变化;有些直接大段地“引用”别人的内容;有些综合运用多种手段,将多篇别人的文章拼凑而成自己的;有些“学术高手”直接拿国外的论文翻译成中文发表,等等.抄袭和剽窃“手段”的越来越“高明”,给抄袭剽窃检测带来很大困难.抄袭检测又叫复制检测、剽窃检测或副本检测,根据检测对象性质不同可分为图像、声音和文本复制检测.学术论文抄袭检测是文本复制检测的一种,归根到底是判断两篇学术论文的相似程度.“召回率”和“精准率”是判断检测算法好坏的两个重要指标.为了进一步提高学术论文复制检测判断的准确率,针对学术论文的文档相似度算法的改进和创新研究变得尤为重要.

学术文复制检测的进展新方法参考属性评定
有关论文范文主题研究: 关于数据库的论文范本 大学生适用: 学院学士论文、学士学位论文
相关参考文献下载数量: 39 写作解决问题: 写作技巧
毕业论文开题报告: 论文任务书、论文题目 职称论文适用: 期刊目录、高级职称
所属大学生专业类别: 写作技巧 论文题目推荐度: 优质选题

1 国内外研究现状及存在的问题

1.1 国外研究现状

国外具有代表性的文档相似度算法主要有以下几种:①Manber提出一个sif工具,其“近似指纹”是用基于字符串匹配的方法来度量文件之间的相似性;②Brin等在“数字图书馆”工程中首次提出文本复制检测机制COPS(copyprotectionsystem)系统与相应算法,奠定了论文抄袭检测系统的基础;③Garcia-Molin提出SCAM(Stanfordcopyanalysiethod)原型,改进了COPS系统,用于发现知识产权冲突.他使用基于词频统计的方法来度量文本相似性,后来把检测范围从单个注册数据库扩展到分布式数据库上以及在Web上探测文本复制的方法;④贝尔实验室的Heintze开发了KOALA系统用于剽窃检测,采用与sif基本相同的算法;⑤si和Leong等人建立的CHEC系统首次把文档结构信息引入到文本相似性度量中;⑥Stein提出一种方法,这种方法能产生一种“指纹”,在某种程度上能有效防止修改;⑦MeyerzuEissen等提出通过根据写作风格上的变化来分析单篇文档,从而决定是否有潜在抄袭;⑧美国学校首先引入Tumitin侦探剽窃数据库,用于防止论文抄袭,此外还有其他类似软件系统用于进行文档相似度分析.当然不同的检测系统其相似度算法的精度也不尽相同.

1.2 国内研究现状

国内关于论文抄袭剽窃检测方面已有一些研究:①张斯通过对中文文本进行自动分词,然后计算它们的相似度,从而判别文本是否抄袭,其对应装置包括:样本输入装置、样本数据库、自动分句分词装置、分词数据库、预处理装置、特征词数据库、相似判别装置、判别结果输出装置和控制处理装置等.②鲍军鹏通过文本的结构信息和语义信息提取文本特征,是通过运用文本剽窃判定模块中设定的探针法,估计待检测文本特征和特征库中的文本特征的最大共同语义,并给出文本雷同度量,从而判别文本是否抄袭.③沈阳是通过先找到存储空间内的格式遗留,再将这些遗留格式附近文档的关 键 词或/和句子或/和段落与文献库中的文献内容进行比较,从而减少被检测文档的数据量,加快了反剽窃或