基于动态规划的文本查重算法实现

点赞:4024 浏览:10925 近期更新时间:2024-03-25 作者:网友分享原创网站原创

摘 要:近年来学术界抄袭事件时有发生,给整个学术界的声誉造成了极坏的影响.针对海量文本查重问题,运用基于编辑距离的动态规划算法,实现文本集合间的相似度计算.该算法通过计算句子相似度数值来判断文本相似度,检测并标明出相似句对应的原句.实验结果可知,该系统对较长的文本可以完成雷同判定.

关 键 词:相似度LD算法查重系统

中图分类号:TP393.092文献标识码:A文章编号:1007-9416(2013)08-0115-01

1引言

近年来学术界抄袭事件时有发生,学术界长期形成的科学、诚实、追求真理的之塔的形象受到社会大众的质疑.针对上述问题,有必要及时发现并阻止此类事件,提供一个检测论文是否有抄袭文本查重方法和依据.

2相关工作

目前,对于文档相似度的判定采取的主要算法有:序列匹配的方法就是求两个字符串的公共子串的最大可能长度[1].向量空间的余弦定理,它是利用余弦定理和广义Jaccard系数来计算文本相似度[2].结合文本相似度检测研究现状,以及开发本系统的初衷,本文采用模块化程序设计方法和采用现有软件环境及先进的对比算法开发的软件系统,采用的主要算法是距离编辑算法,实现了不同类型文档的相似度检测.通过本系统能够有效检测学生抄袭行为,具有一定的实用价值.

3关键算法与实现

本文采用距离编辑算法比较两字符串的相似性,它的思路就是从两个字符串的左边开始比较,记录已经比较过的子串相似度,然后进一步得到下一个字符位置时的相似度.两个字符串的距离就是一个字符串转换成另外一个字符串过程中的添加、删除、修改数值.

3.1系统实现

本文运用VS2010环境和C#语言,采用模块化程序设计方法和采用现有软件环境及先进的对比算法来实现系统的整体功能要求.系统能根据用户的需求提供3种不同的检测方式,比较合理地搭配并基本完成系统的总体功能要求,实现对.doctxtpdf三种格式的兼容比较,对抄袭情况的判断的提供了直观的依据.

文本抄袭检测是指选择一个文件夹,再选择文件夹下的其中一篇文档,拿这篇文档和该文件夹下的其他文档进行比对检测,也可以在系统中对该文档文本进行添加、删除或修改文字后再进行检测.在得出的结果当中,该文档和其他文档之间的相似度;在原文档用红颜色标示出相似句.系统中的核心功能是两两比较,也就是1:1检测模块.N:N指检测选择一个文件夹,对该文件夹下的所有文档进行两两检测,得出两两相似度.

3.2实验结果

文档检测的结果可以通过点击相似度,在文本框中用红色标明哪些是相似句对应的原句.在检测出文本相似度的基础上再进行查重,可以检测出相似语句内容(红色标示).检测界面中从文件夹里面符合条件的文档会在列表框中列出来.选择要检测的文档,单选双击列表框一篇文本,然后开始会跟文本框中除自己外所有文本进行比对.设置句子相似度任意0到1之间的值,结果为指定文本与剩余所有文本进行逐个对比,检测后相似度显示中间,双击可看相似部分,可以查看整篇文章雷同语句.

检测结果是指选择两篇文本进行检测,也可以直接粘贴文本到系统文本框中进行检测.得出数据,两个文档之间的相似度.从指定目录找两篇文本(或粘贴文本)到文本框下进行匹配,得出雷同率和展示结果如图1所示.


系统实现抄袭检测的文档包括.txt、.doc和.rtf3种格式的文本.在对文本进行检测的过程中,因为本系统只是检测文字,不包括检测图片等,检测时会过滤图片,涉及到用句子分割符来分割文本,默认的句子分割符是“;.?!等\;.!?”等.选取要测试的word,pdf,txt三种文本,将其读入到richTextBox中.这样制作了两个待测文本之后,再调用对比函数将两个待测文本进行比较,把比较出来的雷同率输出到TextBox中,并找出该相似句的文档出处以及段落出处,做到有根有据.本系统不能对句子的语意、结构上的相似性进行判断,只能对纯粹字面上的句子进行相似度判断.

4结语

海量文本的查重系统实现是针对现在大学生在专业课程中提交的报告或论文存在比较严重的抄袭现象的现状而设计的,根据该系统对提交的报告或论文进行对比,最终提供一个检测报告、论文的方法和依据.

基于动态规划的文本查重算法实现参考属性评定
有关论文范文主题研究: 关于文本的论文例文 大学生适用: 学士学位论文、本科毕业论文
相关参考文献下载数量: 34 写作解决问题: 写作资料
毕业论文开题报告: 文献综述、论文总结 职称论文适用: 论文发表、职称评副高
所属大学生专业类别: 写作资料 论文题目推荐度: 优质选题