摘 要:在Lucene的基础上设计了垂直搜索引擎模型的检索模块,以提高检索的质量,改变文档的排名,改善用户体验.该模型在检索模块中综合了四个方面来计算文档得分,即主题相关度得分、网页重要性得分、用户兴趣计算得分、关 键 词位置权值得分.为了让检索结果更能体现用户的实际需要,特别加重了用户兴趣部分的权重分值,并通过实验证明了改进的检索模块比传统的检索更有实际效果,增强了垂直搜索的个性化.
关 键 词:用户兴趣;Lucene;检索;个性化
中图分类号:TP393文献标志码:A文章编号:1006-8228(2012)12-34-02
Applicationofuserinterestmodelinretrievalmoduleofverticalsearchengine
LiXiaohong,LiMaolin
有关论文范文主题研究: | 关于用户的论文范文集 | 大学生适用: | 大学毕业论文、学年论文 |
---|---|---|---|
相关参考文献下载数量: | 69 | 写作解决问题: | 学术论文怎么写 |
毕业论文开题报告: | 标准论文格式、论文设计 | 职称论文适用: | 技师论文、初级职称 |
所属大学生专业类别: | 学术论文怎么写 | 论文题目推荐度: | 优秀选题 |
(CenterofComputer;ShaoyangMedicalCollege,Shaoyang,Hunan422200,China)
Abstract:Inthispaper,retrievalmoduleofverticalsearchenginemodelbasedonLuceneisdesigned,inordertoimprovetheretrievalquality,changethedocumentrankandimprovetheuser’sexperience.Fouraspectsarebinedinthioduletocalculatethedocumentscore,thatis,subjectcorrelationscore,webpageimportancescore,userinterestscore,keywordspositionweightscore.Inordertomaketheretrievalresultsbetterreflecttheactualneedsofusers,userinterestpartisespeciallyaggrated.Theresultsprovethattheimprovedretrievalmodulehaorepracticaleffectthanthetraditionalretrieval,anditenhancestheverticalsearchpersonalization.
Keywords:userinterest;Lucene;retrieval;individualization
0引言
搜索引擎作为网络信息查询的主要工具已经在人类生活中占据了主导地位,搜索引擎的搜索质量直接影响到用户体验.垂直搜索在专业性上略胜与传统的搜索引擎.本文主要改进垂直搜索引擎的检索模块,在传统的Lucene检索模块中加入Pagerank得分,关 键 词得分,并特别加入了用户兴趣得分,建立了一个个性化的垂直搜索检索模块模型,从而使垂直搜索在个性化上更贴近用户的使用习惯和兴趣.
1用户兴趣模型的建立
用户兴趣作为垂直搜索引擎当中的一项个性化怎么写作,直接影响到了用户使用该垂直搜索的体验[1].用户兴趣模型的建立应从两个方面分析:一是用户兴趣模型能否反映用户的真实兴趣爱好;二是针对用户查询兴趣的多变性,该模型是否能满足变化的用户兴趣.
1.1常用的用户建模技术
现今的用户建模技术分为三类:用户手工写作建模、示例用户建模和自动用户建模.
⑴用户手工写作建模
用户自己动手在网页上选择或者手动输入自己的兴趣爱好.该方法实现简单,得到的用户兴趣结果可靠.但是存在不足:①影响用户体验,一般用户对频繁的输入和选择缺乏兴趣;②更新用户模型困难,一旦用户的兴趣发生转移,而又让用户重新提交网页文档会给用户造成负担;③反映用户兴趣不全面,提供给用户的选择项本身就带有主观性,另外用户选择时也存在不能准确表达的情况,这些将直接导致收集的用户兴趣不够准确[2].
⑵示例用户建模
示例用户模型的建模是用户自己提供相关的兴趣爱好示例及其类别属性.用户在浏览网页时标注对页面的感兴趣程度即可得到用户建模的示例.
⑶自动用户建模
通过留意用户浏览网页的内容和浏览网页时的行为自动为用户构建一个用户模型[5],这种建模无需用户主动参与,通过用户上网时的行为采用数据挖掘技术自动获取用户的兴趣爱好.虽然这种方法会带来一定的噪声,影响用户浏览时的速度,对建立高质量的用户模型也有一定的影响,但是该方法无需用户主动提供信息,不干扰用户的其他操作,从用户体验的角度来说是比较好的建模方法.因此,未来建模技术的发展方向都会采用自动建模技术.
1.2用户兴趣行为的量化表示
通过对自动用户建模的相关研究发现,用户的兴趣与用户的行为是紧密相连的.用户兴趣可以通过用户浏览该页面的时间和拖动滚动条的时间来有效地反映.而通过用户阅读页面平均速度能帮助建模时确定用户兴趣的等级.另外用户查询、标记书签、浏览页面、点击鼠标、反馈信息、拖动滚动条、后退、前进等这些行为都可以暗示用户的爱好.用户访问页面时的停留时间、访问次数、保存、编辑、修改等动作都能够揭示用户兴趣[3].
通过以上分析,将用户行为用二维表格来记录,称用户行为数据表[3].数据表又分为两种类型:基于关 键 词的用户行为数据表和基于文档的用户行为数据表.前者描述用户在关 键 词上的行为,其结构如表1所示;后者描述用户在一篇文档上的行为,其结构如表2所示.表1中的数据为:用户id号(uid)、关 键 词(kw)、所属主题(t)、关 键 词因被选中而高亮显示的次数(hlt)、关 键 词被用户圈住的次数(cir)和在该关 键 词下画下划线的次数(udl).
表2中的数据为:文档id(did)、文档所属主题(t)、关 键 词的单击次数(clk)、浏览该文档时间(time)、在该文档中添加书签的数目(bmk)、批注次数(ant).
由于浏览时间受一些客观因素的影响,因此以上时间是修正后的时间.
1.3用户兴趣度的计算
由于用户在浏览网页的过程中有自己固定的爱好和使用方法,因此可以针对不同的用户用不同的权重值来表示用户的不同行为[4].
⑴基于关 键 词的用户兴趣计算
用户行为权重,
,表示用户对某主题下n个关 键 词的行为.两者的乘积定义为:
kw(t)等于bkw*bk(t)等于(kw1,kw2,等,kwn)T
基于关 键 词的用户兴趣度为:
基于文本的用户兴趣度计算方法类同.
2检索模块设计与应用
将用户兴趣应用到检索模块以改善用户体验,同时考虑了其他一些相关因素.
⑴主题相关性.
Lucene排序算法:以关 键 词在文档中出现的次数排序.
⑵关 键 词在文档中的位置.
可以通过关 键 词在文档中出现的位置和频率得出网页或文档的权重值.
⑶用户兴趣.
⑷网页的重要性.
网页重要性的分值可以通过PageRank算法得到[4].
将这四个因素综合考虑,可设计网页的排序算法如下:
Score_f等于d1*luceneScore+d2*PagerankScore+
d3*keyScore+d4*yhxqScore
Score_f:文档f总得分;
luceneScore:主题相关度得分;
PagerankScore:网页重要性得分;
keyScore:关 键 词位置权值得分;
yhxqScore:用户兴趣计算得分;
d1,d2,d3,d4表示权重系数,d1+d2+d3+d4等于1.
3实验
将改进的检索算法与原Lucene检索算法对比查全率,查准率和系统响应时间.其中改进算法的权值设置为d1等于0.35,d2等于0.2,d3等于0.13,d4等于0.32.加大了用户兴趣的得分权值.我们测试的数据量为20万条,得到如下结果:
⑴查全率
估值计算,改进算法得到的结果为n1;Lucene算法得到的结果为n2.
Recall等于n1(n2)/(n1+n2)
⑵查准率
查准率的计算为:
p等于k0/k
k0:正确的数据;k:全部相似数据.
⑶系统响应时间
Lucene基础排序算法平均响应时间在35ms左右,而改进的搜索平均响应时间在46ms左右.
两种检索在三个方面得到的结果对比如表3所示.
4结束语
本文主要改进了垂直搜索引擎的检索模块,在该模块中综合了主题相关度得分、网页重要性得分、用户兴趣计算得分、关 键 词位置权值得分四个方面来计算网页文档得分.特别将用户兴趣得分部分设置了较重的权重值,使得本文的垂直搜索更具有个性化.通过实验证明,该模型从用户的角度提高了搜索质量,改善了用户体验.该模型还存在一定的局限性,在权重值的分配上还需要大量的实验来验证更合理地分配方案,以达到更合理的搜索效果.
WSKID.Athree-yearstudyonthefreshnessofwebsearchenginedatabases[J].J.Inf.Sci.,2008.34(6):817-831
[4]盛振华,吴羽,江锦华等.InfoSigs:一种面向Web对象的细粒度聚类算
法[J].计算机研究与发展,2010.5:796-804
[5]邱哲,符滔滔.开发自己的搜索引擎一Lueene2.0+Heritrix[M].人民
邮电出版社,2007.