微博信息检索中的关键问题

点赞:20591 浏览:93813 近期更新时间:2024-02-13 作者:网友分享原创网站原创

摘 要微博是由其发布者在一段时间内不断更新的数据组成的,这些更新的状态信息按照时间倒序呈现给其他微博用户.尽管微博的使用越来越流行,但是微博数据的组织方式和在其上的信息检索仍然是一个比较新的课题.本文主要介绍了微博检索中实体检索和情感分析等问题.由于微博信息搜索还是个比较新的研究领域,所以结尾部分分析了在本领域中仍在研究中的亟待解决的问题.

关 键 词微博信息检索

中图分类号:G254文献标识码:A

微博是一种新的信息共享、信息传播和信息获取平台,研究表明许多的微博都包含着提问或者回答问题.人们在搜索微博上的信息时至少有两种方法,一种是在微博上发布问题,以希望他的关系网中的人可以回答此问题,另外一种是提问者在已有的微博数据中查找答案.与在线问答怎么写作相比,微博提问有以下几点不同:(1)它的问题只会被提问者的粉丝看到;(2)提问者以前发表的微给回答者提供一定的相关线索;(3)由于微博格式的限制,问题和答案都简洁明了.这与社会上的信息咨询相似,我们会通过咨询认识的人来得到相关信息.在微博上,查询者的问题会仅显示给那些关注他微博的粉丝,即如果我通过微博发布问题,相当于我向我的粉丝来提问.本文主要分析在微博上进行信息检索时的关键问题,主要包括:情感分析与观点挖掘、实体搜索、以及用户元数据.

一、用户元数据

近年来,随着Web2.0技术的发展,在线社会网络受到了人们的广泛关注,各种在线社会网络如雨后春笋般涌现.这些网络的用户数大多都有几千万,甚至几亿,从而产生了大量的节点和网络数据.与早期web怎么写作不同,这种新的怎么写作允许,甚至是依靠用户来创造,编辑和传播信息.在这种社会媒体环境中,用户元数据的大量产生给信息检索带来了不少新问题.

微博社会中,用户可以使用各种不规范的元数据,虽然Twitter本身并不会有太多内容,但是用户会发明和采用各种各样的元数据来使他们的文本内容更加丰富.例如,标签的使用已经在微博社区变得普遍.标签是由#开头的一组简单字符串,人们使用#标签,有的是为了增强点击率,有的仅仅是觉得好玩.例如:在2012年中国网络科学性论坛期间,许多人发表相关微博时,会加上标签#网络科学#,这样人们会很容易通过标签搜索到相关信息.

这种标签检索至少有如下三种用途:

标签检索:帮助查询者找到他十分想要关注的的主题;

查询扩展:标签能为查询扩展提供极其相关的数据;


结果展示:标签能够用来整理查询结果,为所查询返回的文档进行归类.

还有一些用户元数据包含着明确社会链接,微博发布者可以通过@〈用户名〉发布指向某一特定用户的微博,其中〈用户名〉是所指向的用户的网名.Huberman等人发现大约25%的微博包含@指向,大部分的第三方微博客户端会明显地展示所有@他们的用户信息,尽管这些用户并没有关注这些微博的博主.

在新浪微博中,用户有许多不同的方法来使用@符号,一般的结构是:@赵本山打算今年上春晚了吗?另外,我们也经常看到这样的结构:祝贺你@徐铮上映了新的电影#泰#.第一个例子中,微博的发布者是在向赵本山提问,值得注意的是这条消息会被赵本山以及这个发布者所有的粉丝看到.第二个例子表明作者想要定向的广播消息,这样类型的微使其他用户感觉到在发布者与“@”的那个人之间存在着社会联系,因而,这样一条消息暗示着两个用户之间的社会联系,另外其中的#标签也同时会将这条微博展示在有关泰的话题中.虽然元数据的使用使人容易产生歧义,微博用户仍然喜欢使用.整理这些元数据以改进检索效果,在微博信息检索中有至关重要的作用.

二、情感分析与观点挖掘

在如今的文本挖掘中,情感分析是我们需要面对的关键问题之一,情感分析早已涉入信息检索研究,它是信息检索研究的重点.大部分的情感分析程序是基于以下两点,一是确定表达观点的词组,二是确定这些词组在所需分析的文档中的重要程度.像其它的SNS数据一样,微博发布的信息也常常表达着某种观点或者情感.通过分析一份微博数据语料集,Diakopoulos和Shamma发现微博数据一般趋向于明显的负面情感.

由于微博在日常应用中常被用来表达某种观点看法,所以观点检测和情感识别问题在微博检索中有很明确的作用.例如,微博数据已被用来做政治观点的评估判断,Tumasjan等人(2010)分析了与德国选举相关的微博样本数据,他们为每个政治家和党派设置“情感描述文件”,指出,这些数据基本真实的反应出了他们选举活动的许多差别.另外,研究者还发现,通过分析Twitter数据,可以预测未来某一时刻消费者信心等事件.

三、实体检索

我们开通微博后,最先要做的一件事,就是选择自己感兴趣的微博进行关注,那么我们应该怎样寻找那些自己感兴趣的用户呢?检测如我对某主题X感兴趣,那么谁是X方面有权威的专家,谁经常发布这方面的微博呢?微博上的实体搜索就是解决微博用户类似的一些问题,帮助人们在微博上寻找那些经常发表自己感兴趣的话题的微博用户.实际上,这与早期的信息检索系统类似,人们在检索已被事先收集好的关 键 词,系统将人们的检索信息与事先收集的关 键 词进行比对,最终获得一个相关文献的排序列表.

实体检索时信息检索中比较简单实用的一种,是研究微博最先需要解决的问题之一,这涉及到如何定义检索单元,如何收集和划定关 键 词等问题.在这种检索中,我们检索某一词组时,系统返回的是与检索词相关的那些有影响力的微博用户.最成熟的实体检索模型是专家挖掘,在专家挖掘中,检索的模块是一个与作者查询相关的领域专家.

信息检索文献中已经提出了一些专家挖掘方法,例如在基于虚拟文档方法中,文献的作者由被他所写的所有论文来描述,也就是说,我们为每个作者分别创建一个由他创作的所有论文组成的虚拟文档,然后,我们就可以像以往一样基于这种虚拟文档来进行检索.在微博信息检索中,微博作者列表、微博用户之间公开的聊天数据组和提问与回答对等数据都是在微博实体检索时需要考虑的重要方面.

四、总结

本文已经讨论了一些关于微博信息检索的问题,另外,还有一些对微博检索效果也很重要的影响因素.(1)权威和影响力因素,类似于WEB信息检索中的PageRank,那些被转发很多的微博,或者粉丝很多博主发表的微博,应该在检索结果中体现出来.(2)时间性因素,由于网络事件的突发性,那些最早在发布的相关微博应该在该事件中有较大的影响力.(3)地理位置因素,当我们在北京和上海两地分别查询天气是,检索系统应该根据发布者的地理位置信息给出不同结果.尽管发布者不会自己把地理信息标注在微博中,但是许多微博怎么写作客户端会自动把地理位置标注在微博信息上,也许这些地理信息就包括在我们上文讨论的微博用户元数据中.

微博给人们的信息交互方式带来了很大的改变,人们在微博上写日志、发状态、和朋友交流、关注明星,这与以往的信息检索环境有非常大不同,我们不能局限在对网页和社交网站检索系统的研究成果中,我们应突破已有检索模式,发展适用于微博信息的检索怎么写作模式.□

(作者:潘彦宁,河北大学信息系统专业在读研究生,郭洪生,河北农业大学人事处,研究方向:社会管理)

微博信息检索中的关键问题参考属性评定
有关论文范文主题研究: 关于信息检索的论文范文文献 大学生适用: 研究生论文、函授论文
相关参考文献下载数量: 17 写作解决问题: 怎么写
毕业论文开题报告: 论文任务书、论文前言 职称论文适用: 论文发表、初级职称
所属大学生专业类别: 怎么写 论文题目推荐度: 优质选题