个性化用户兴趣模型的

点赞:25275 浏览:118073 近期更新时间:2024-02-04 作者:网友分享原创网站原创

摘 要 :随着人们对信息获取手段和效率提出越来越高的要求,传统互联网的怎么写作模式正在逐渐向主动式、个性化、高效率的转变.个性化怎么写作技术的出现在一定程度上解决了Inter中信息海量增长与用户获取信息手段相对简单之间的矛盾.用户兴趣建模技术作为个性化怎么写作的核心问题,主要研究如何有效地进行用户兴趣的表示、更新、存储以及计算.

关 键 词 :个性化,用户模型,数据挖掘

中图分类号:TP301文献标识码:A文章编号:16727800(2011)012002903

作者简介:张艳(1983-),女,江苏邳州人,硕士,南京陆军指挥学院助教,研究方向为数据挖掘.1用户兴趣模型研究现状

1.1用户兴趣模型的研究内容

目前的检索系统多从检索模型和信息加工过程来提高检索的准确性,并没有给予用户更多的关注,特别是以网络搜索引擎为例,不同背景的用户使用相同的提问来查询,得到的结果没有区别,相同的用户在不同的时间做的相同的查询,得到的结果没有区别,使得用户不容易发现自己的最新兴趣,这主要的原因是,在这些怎么写作系统中,没有考虑到用户信息的存在,也就是用户过去的行为和用户的历史数据.为了解决这个问题,有必要引入用户兴趣模型.

用户模型的应用领域是广泛的,在信息检索过程中引入用户模型,有利于实现自适应检索,既提供一种个性化智能化的信息检索怎么写作.通过对用户检索行为历史中的记录和学习,可对用户检索提问分析得更为准确,这实质上就是提高检索结果与用户需求之间的相关性,通过提高用户相关度来提高用户的满意度.同时,用户模型有助于预期定位用户的需求,进行主动怎么写作.


用户兴趣模型的定义为:用户兴趣模型是用来捕获用户需求及其兴趣点,并记录、管理用户兴趣,描述用户潜在的兴趣及需求的模型.

1.2研究现状

早期用户模型主要是用在自适应人机界面(Adaptive humanComputer interface),同时也是信息过滤(Information Filtering)机制研究的一个核心问题.用户界面是直接与用户交互的接口,通过与用户的交互,接收用户的行为,积累用户处理事务的经验,以应对用户出现的新的动作.用户模型是用于存储和管理用户行为历史,存储学习用户行为的知识和进行相关推导的知识功能的集合.信息过滤是研究的是面向个体进行信息过滤筛选,它关注用户的长线需求(在一段时间内为固定不变的需求),提供与其相关的信息.

用户描述文件还没有一个统一的标准,如 W3C(.省略)有两个涉及用户描述文件的标准:PICS(platform for inter content selection)和 APPEL1.0(a Ppreference exchange language 1.0),PICS 是父母和老师用来控制孩子的浏览能力的,提供了过滤规则定义语言 PICSRules.APPEL1.0 可定义用户感兴趣的站点和过滤规则,这些规则大部分是在 PICSRules 的基础上发展起来的.此外,Netscape,Firefly和 VeriSign 曾向 W3C 的 P(platform for privacy preferences)工作组提交了一个OPS(open profiling standard)草案,由于目前 P 版本不打算考虑如何进行数据传输,因此该草案被搁置一边,OPS 描述了如何表示一个用户描述文件以及用户与Web 站点交互的问题.文件可以用文件来组织,也可以用关系数据库或其它数据库来组织.目前有一些系统采用基于 XML 的 RDF(resource definition framework)来表达用户描述文件,并利用支持 XML 的数据库系统来存储用户描述文件.这样,不仅利用了 XML 的优点,也保持了系统的性能.表1从用户描述文件创建的数据源和表达方式比较了几个典型的个性化怎么写作系统.

1.3存在的问题

通过大量的调研学习发现:首先,目前大多数个性化系统的用户兴趣模型都是基于内容进行用户兴趣挖掘的,偏重于用户浏览内容的学习和研究,而对用户行为的分析研究尚不充分,未能有效地利用用户行为来发现用户兴趣及过滤噪音.由此所构建的用户兴趣模型的客观性和准确性都受到了限制.其次,用户及文档特征的表示方法单一,通常将文档或用户当作一个“整体”进行描述,这样的特征表示方法缺乏层次性,表示粒度有限,难以真正体现“个性化”的初衷.再次,用户兴趣模型学习过程中所用的训练文档都被检测设为用户“兴趣文档”,没有对其中的“非兴趣文档”加以区分,因此引入了许多个性化系统自身系统框架及算法难以过滤掉的噪音.

表1典型的个性化怎么写作系统的用户描述文件对比

个性化怎么写作系统数据源用户描述文件的表示方式BroadVision用户注意信息用户静态的信息表示,显示创建Personal Web

Watcher文档页面之间的超链接信息基于加权关 键 词 矢量表示,隐式创建Syskill & Webert用户显式反馈的信息基于加权关 键 词 矢量表示,隐式创建Letizia用户浏览页面的行为和馈信息基于加权关 键 词 矢量表示,隐式创建CiteSeer用户浏览面页行为和反馈信息一个文件集合表示,显式或者隐式创建ifWeb用户反馈的信息基于加权语义网表示,显式创建PVA用户浏览日志信息一种类型层次结构的个人视图表示,隐式创建GroupLens用户反馈信息和浏览页面的时间基于关 键 词 矢量置于数据库中,显示创建SELECT用户浏览行为信息基于加权关 键 词 矢量表示,显式创建Anatagonomy用户浏览行为和反馈信息基于加权关 键 词 矢量表示,显式创建2用户行为分析

文献[13]指出,一个用户浏览网页时的行为数据是非常丰富的,大致可以分为以下几类:

2.1表示用户兴趣的显式行为

为了能确定用户的浏览行为所表示的用户的浏览兴趣,通常都是利用用户兴趣反馈的方式,用户需要回答系统所提出的问题,以表示用户的某个行为跟自己的兴趣有多大的相关性,这就是前面所说的显式跟踪.

2.2表示用户兴趣的标记行为

各种各样的动作行为可以看作是对用户兴趣的某种标记.这些动作包括增加书签、删除书签、保存页面、把某个页面用 发给别人、打印页面等.

2.3表示用户兴趣的操作行为

一些动作,如:剪切、复制、粘贴可以作为能表示用户兴趣的一些操作行为,还有如打开一个新的浏览器窗口(因为一个用户在保持现有窗口继续开着的情况下再打开新的窗口一般可以认为是用户对页面感兴趣) 、在一个网页内搜索文本、或者是拉动滚动条等也可以看作是用户的一些操作行为来表示用户的浏览兴趣.

2.4表示用户兴趣的链接行为

如果一个用户在浏览某个页面时点击了某个超链接或者是没有点击超链接,我们就可以认为这种行为为链接行为.

2.5表示用户兴趣的外部行为

所说的外部行为是指用户在查阅信息时的一些物理或者是生理机能上的反应,如:心律、呼吸、体温、感情、眼睛的移动等,显而易见,要获取这些特殊的行为特征如果没有特殊的仪器是相当困难的.例如,用户的眼睛移动可以解释为用户在跟着光标在寻找自己感兴趣的信息,而情感活动可以解释为是用户频繁的交互而产生的.

2.6表示用户兴趣的重复行为

一般来说,我们能够检测设,如果一个用户在某个页面上点击了“更多”,就可以认为用户对这个页面有更多的兴趣,因此用户就有可能花更多的时间阅读相关信息,这样就会增加拉动滚动条次数,或增加用户重复访问同一个页面的次数.

显然用户兴趣与所浏览网页时的浏览行为是密切相关的.文献[14]指出用户的很多动作都能暗示用户的喜好,如查询、浏览页面和文章、标记书签、反馈信息、点击鼠标、拖动滚动条、前进、后退等.文献[15]的研究指出用户访问时的停留时间、访问次数、保存、编辑、修改等动作能够揭示用户兴趣.文献[13]的研究表明浏览页面所花的时间和拖动滚动条的次数可以有效揭示用户兴趣.文献[16]的研究指出网页平均阅读速度有助于确定用户兴趣的等级.但是在这些文章里并没有对哪些行为究竟怎样反应用户的兴趣进行量化估算.

3用户兴趣模型创建

3.1基于写作信息

本文以基础教育资源在使用过程中的个性化用户兴趣模型的研究为例来进行分析研究.基础教育资源分类相对集中,分类的规则种类相对固定,比如按照学科分类可以分为数学、语文、英语、物理、化学、政治等学科,在每门学科中又可以按章节知识点进行细化,这些资源同时按照学段分为小学、初中、高中等各个年级并且可以更加细化各个学期,按照资源类型也主要可划分为教育新闻、政策消息、教案、试题、课后补充知识等类型.基于教育资源库的这种特点和使用者的身份和这些资源具有对应关系,就可以方便地根据用户特定需求建立用户兴趣特征模型,为智能检索、个性化推送等个性化怎么写作提供根据.譬如,某一线高一数学老师,就可以根据其自身需求,写作数学、高中一年级上学期、教育新闻和政策消息和教案和试题,这样就可以根据这些多维的信息从众多的教育资源中定位到这位老师所需要的资源,提高查找资源的准确性和查找资源的效率.在系统设计的同时还需要充分考虑使用者的特征,因为使用者中包括广大中小学生,这就需要尽量突出系统的直观简单易用,条理清晰,让用户不用花费很多时间就能学会使用.

可以依托基础教育中明确的分类体系,向用户提供关 键 词 写作、类别写作、类别与关 键 词 组合写作等怎么写作;用户可选择写作资源的数量;对写作信息可随时查看、添加、修改、删除,系统会保持同步更新,使怎么写作符合用户的动态需求.提交过写作信息的用户再次访问时,系统自动将其写作的资源信息以网页的形式呈现给用户,使用户直接看到自己需要的信息,免去重复检索查找的麻烦.

基于关 键 词 :用户通过一个或一组关 键 词 来描述自己的信息需求;

基于类别:用户通过选择不同学科、学段和资源类型进行单个类别或多个类别组合的资源信息写作;

基于类别与关 键 词 组合:同上所述,用户可以在选定类别(组合)的同时,提供若干关 键 词 ,更精确地描述个性资源需求,进行资源信息的写作.

个性化用户兴趣模型的参考属性评定
有关论文范文主题研究: 关于用户的论文范例 大学生适用: 本科论文、学院学士论文
相关参考文献下载数量: 16 写作解决问题: 如何怎么撰写
毕业论文开题报告: 文献综述、论文小结 职称论文适用: 论文发表、职称评中级
所属大学生专业类别: 如何怎么撰写 论文题目推荐度: 经典题目

3.2基于用户兴趣挖掘模型

数据挖掘也称知识发现,是指从大量数据库或数据仓库中提取出隐含的、未知的、非凡的及最有潜在应用价值的信息或模式,是从大量数据中集中快速高效地发现令人感兴趣的规则.用户行为的数据挖掘主要是对用户行为进行采集分析量化并且将这些数据放入模型化的用户个性化数据库中,包括对用户进行检索时所输入的关 键 词 、用户的提问、用户访问的页面、用户访问页面的频率、页面停留时间等数据的采集分析.

图1基于用户兴趣挖掘模型流程图

用户行为的数据挖掘主要包括两个方面,一方面是对某一用户个体行为的挖掘分析,对该用户每次登陆资源库后进行的所有操作长期跟踪分析,从而得出此用户的资源兴趣取向还可以帮助发现用户潜在的信息要求;另一方面是对用户群体行为进行数据挖掘聚类分析,尤其是对某一类用户的信息兴趣、关注热点进行挖掘分析,以得到某一类用户的共同关注点,以此可以向同类型用户进行资源推荐.同时教育资源库的建设和维护人员还可以通过对用户行为的数据挖掘,科学地了解用户的需要,从而更好地进行教育资源库的再建设.系统对用户信息的分析收集结果对用户应该是可见的,这样有利于用户及时修改调整描述其兴趣的特征项、特征项标识优先程度的权值以及各特征项之间的关系,以使对用户个性化信息模型的建立更加贴近用户的真正需求.因为用户的行为可以很好地反映用户的资源信息兴趣倾向,所以通过用户行为的数据挖掘可以很好地获得用户个性化信息需求.

3.3用户与文档资源匹配模块

3.3.1用户特征提取与向量表示

对收集的数据进行净化、整理,对一段时间内的行为数据与最新的用户资料进行综合分析,将检索词、标题、摘 要 等信息进行分词、去噪处理,转化为一系列词的组合,并依据基础教育特征词库,将每个词赋予不同的权值,构成用户特征向量.

P等于(u1,u2,等,ui),其中ui表示第i个词的权值.

3.3.2基于向量空间模型的匹配算法

将用户特征与文档(已经过预处理)向量化,文档和用户特征的匹配就转化成了向量空间中的向量匹配问题.判断某篇文档是否符合用户需求特征便转换为文档向量与用户特征向量的相似度的计算,相似度通过两个向量夹角的余弦值的内积来表示.检测设文档向量为d等于(w1,w2,等,wi),用户特征向量P等于(u1,u2,等,ui),则相似度计算公式为:Sim(D,P)等于cos(D,P)等于∑ni等于1wdi×wpi∑ni等于1w2di×∑ni等于1w2pi(1)3.3.3基于文档类别的分层匹配策略

为减少系统运算量,避免响应时间过长.结合基础教育分类体系特点,考虑将用户特征首先在类别一级进行匹配,在匹配度较高的类别内再进行用户特征与文档的匹配.用户特征出现分散性:即用户的兴趣可能并不集中在某一个类别,在进行类别一级的匹配时,用户特征可能与某几个类别的相似度都比较高,因此要设定一个适当的阈值,将高于此阈值的类别都作为用户的兴趣类别;用户数据中类别信息的贡献:在用户使用组合检索方式以及访问网站黄页和资源目录时选择过的类别信息,对用户在类别一级的兴趣特征挖掘有很大的价值,因此在进行用户特征与类别特征的相似度计算时,应将用户行为历史中的类别信息考虑进来,并赋予较高的权值.

4结束语

随着人们对信息获取手段和效率提出越来越高的要求.传统互联网的怎么写作模式正在逐渐向主动式、个性化、高效率的转变.个性化怎么写作技术的出现在一定程度上解决了Inter中信息海量增长与用户获取信息手段相对简单之间的矛盾.用户兴趣建模技术作为个性化怎么写作的核心问题,主要研究如何有效地进行用户兴趣的表示、更新、存储以及计算.它能够满足用户的个体信息需求的怎么写作,即根据用户提出的明确要求提供信息怎么写作,或通过对用户个性、使用习惯的分析而主动地向用户提供其可能需要的信息怎么写作.参考文献:

[1]方卿.基于网络载体的科学信息怎么写作模式初探[J].情报科学,2002(2).

[2]陈建龙.信息怎么写作模式研究[J].北京大学学报:哲学社会科学版,2003(3).