网页指纹查重技术的

点赞:32722 浏览:155095 近期更新时间:2024-01-10 作者:网友分享原创网站原创

摘 要:网页查重技术是浏览获取有用信息的关键技术,传统的查重方法中,选取关 键 词在网页中出现的频率来判断网页是否重复,如果关 键 词相近,可能造成查重误判的情况.本文提出网页本身特有的指纹技术,设计新的查重算法,通过与网页特征库中的指纹比较,完成网页的查重工作,提高查重的准确率.

Abstract:Webpagefingerprintcheckingisakeytechnologytoscanandgetusefulinformation.Thetraditionalmethodofwebpageduplicatedetectionselectsthefrequencyofoccurrenceofkeywordsasthestandardtoverifywhetherit’sduplicate,thesimilarkeywordaymisleadtheduplicatedetection.Thispaperproposedtheuniquewebpagefingerprinttechnology,designednewdetectionalgorithm.Comparingwithwebpagefeatureoffingerprint,thepaperpletesthewebpagerepeat-checkingworkandimprovestheaccuracyofduplicatedetection.

网页指纹查重技术的参考属性评定
有关论文范文主题研究: 关于互联网的论文范例 大学生适用: 硕士学位论文、电大论文
相关参考文献下载数量: 97 写作解决问题: 学术论文怎么写
毕业论文开题报告: 文献综述、论文小结 职称论文适用: 期刊目录、中级职称
所属大学生专业类别: 学术论文怎么写 论文题目推荐度: 最新题目

关 键 词:网页指纹;网页查重;位置向量

Keywords:webpagefingerprint;webpageduplicatedetection;positionvector

中图分类号:TP393.0文献标识码:A文章编号:1006-4311(2014)15-0225-02

0引言

当今世界处于互联网信息时代,网络和信息技术得到飞速提升,互联网上的信息呈现几何级爆炸式的增长,给用户带来了大量有用信息,也带出了一些问题.用户浏览不同网站目的是查找需要的信息,实际情况是大量信息在各网页间