专家检索综述

点赞:3406 浏览:12382 近期更新时间:2024-03-14 作者:网友分享原创网站原创

摘 要:随着知识经济时代的到来,知识对组织的生存和发展具有决定性作用.在组织中掌握一定技能、知识的专家更是活跃在各项科研、生产活动的前沿成为创造新知识的核心资源.而对专家知识的管理能力成为影响组织竞争力的重要因素,因此专家检索问题开始为研究者所重视,特别是从2005年TREC设立专家检索子任务开始,有关专家检索的研究受到了广泛的关注与热捧.从专家检索定义、专家描述、查询主题与专家关系建模三个方面对专家检索的相关研究进行介绍和分析.


关 键 词:专家检索信息检索专家专长

中图分类号:TP391文献标识码:A文章编号:1007-3973(2013)002-102-03

1引言

进入21世纪,人类社会正在由信息社会迈向知识社会,在这一过程中知识成为决定组织竞争力的关键因素.组织中的知识不仅是指像文档、报告等形式的显性知识,还包括在日常组织活动中产生并存储在组织内专家头脑中的隐形知识.正是这些活跃在科研、生产活动一线,掌握一定知识与创新能力的专家成为了组织运用、创新知识的主要力量.如何发掘并有效管理组织内部的专家,日益为组织的管理者所重视并逐步发展成为一门近年来的热点研究主题.

与传统信息检索不同,专家检索作为实体检索的一个特例要求返回的是具有与查询主题相关知识的专家列表而不是相关文档.按照TREC对专家检索子任务的定义,专家检索的任务是在给定语料集上查找与给定查询主题相关的知识的专家列表.其中涉及三个要素:查询主题、语料集和专家知识.与前两者不同,专家知识在研究中并不是直接给出而是隐藏在语料中分散的专家证据中需要使用一定的方法才能得到.所以本文将专家检索任务分解为两个子任务:(1)专家知识表示子任务.从语料中识别出与专家有关的专家证据以描述专家掌握知识.(2)专家排序子任务.通过专家知识与查询主题间关联强度的度量,实现专家排序.我们将以此为线索展开对专家检索研究的讨论,组织如下:第二节介绍专家知识表示相关研究方法,第三节介绍专家排序评价相关研究方法,第四节对本文工作进行简要总结.

2专家知识表示相关研究方法

专家知识表示研究的核心问题是确定哪些语料与专家有关及其关联性的评价.早期的研究都是基于传统IR方法,首先检索出与专家有关的文档然后将其做为专家证据以描述专家知识.比如在由Maybury等人构建的ExpertFinder系统中利用查询词与专家在文档上下文中的共现次数作为专家证据.这种方法基于如下检测设,凡是文档中被提及的专家都掌握该文档的知识.但该检测设在实际中很难满足,比如在现实中除了专家涉及文档中的知识外,专家在文档中被提及的情况还有其它有多种可能,比如在学术论文中某专家可能是作为致谢对象而被提及,或者在邮件中某人可能因为负责管理工作而成为许多邮件抄送对象.因此,并不能简单地认为只要专家被提及那么该专家就一定掌握该文档中的知识.针对这些问题,研究者从不同的角度提出了各自的解决方法,本文将其中主要的几种方法归纳如下.

2.1基于窗口的方法

Fu等人放弃了传统方法中基于文档上下文判断专家与查询共现的方法,采用基于共现窗口的方法来计算专家与查询词亲密度以评价文档与专家间的关系.其基本思想是在文档上下文中,如果专家出现的位置与查询词间距离越短那么两者相关的可能性也越大.这种思想被随后参加TREC会议专家检索任务的团队广泛接受,大多数团队提交的系统在计算共现关系时都是基于这种方法或将其与自身方法相结合.根据Song等人所做的研究表明,在选择窗口大小时,较小的窗口有助于提高专家检索结果的准确率但同时也会降低结果的查询率.之后的研究中Zhu等人采取多中不同窗口尺寸计算专家与查询词的亲密度,并对不同的窗口尺寸指派不同的权重以提高检索结果的性能.同时该方法还常被与其它方法结合使用,比如Guan等人将其与基于文档结构的方法相结合用于评价专家与文档间的关系.

专家检索综述参考属性评定
有关论文范文主题研究: 关于专家的论文范例 大学生适用: 硕士论文、函授论文
相关参考文献下载数量: 30 写作解决问题: 怎么写
毕业论文开题报告: 文献综述、论文题目 职称论文适用: 期刊发表、中级职称
所属大学生专业类别: 怎么写 论文题目推荐度: 最新题目

2.2基于文档结构的方法

任何一种类型的文档都有其固定的格式,比如邮件的格式包括:收件人、主题、正文等部分.专家出现是格式中不同的位置,在一定程度上表明了他与该文档的关系.Zhao等人通过分析专家出现在邮件格式中的不同位置,在使用该文档做为专家证据时为不同专家指派不同的权重.Vechtomova等人利用邮件的主题属性,通过忽略主题中的格式前缀如Re、fwd等,将属于同一主题的邮件合并成单个文件,以更准确地推断专家在该主题中所扮演的角色.Yao等人利用邮件中的格式信息,结合上下文中的语义信息推断专家在文档中的角色从而评估专家与文档间联系.

3专家排序相关研究方法

专家排序的基础是对专家知识与查询主题间关联性的评价,如果两者关联性越强说明该候选专家越有可能是查询主题下的专家,其在排序中的位置也越靠前.但在目前的研究中还没有一种通用的评价方法,下面分别介绍几种比较常见的方法.

3.1概率语言模型

3.2基于图的方法

该方法是借鉴社会网络分析的思想,通过组织内、外数据分析文档与文档、文档与专家、专家与专家间的关联关系,构建其一个以专家、文档为节点,专家、文档间关联关系为边的图模型.之后利用社会网络分析方法对图中的节点关系进行分析,以确定专家在网络中图中的重要性并对其进行排序.

这方面的研究中大多是基于Serdyukov等人提出的相关性传递模型,并通过利用HITS或者PageRank算法计算每个候选专家的得分.相关性传递模型的思想是源于查询扩展技术,用户的检索行为通常不会在第一次查询之后结束而是会利用其结果继续进行查询操作,直到获得认为满意的专家.这一查询过程可形象的理解为是查询用户不断在专家与文档间的游走过程,因此该模型也被称为随机游走模型.如McLeanA等人利用图的结构在项目小组成员之间传递专家证据来识别项目中的专家成员.Campbel等人利用邮件的收、发件人属性构建专家间的关联网络,并通过HITS算法来分析专家在网络中的权威性;Amored等人对Campbel等人的方法进行了一些改进,先用HITS算法识别专家社区再进一步在专家社区中识别专家;Jie人等利用学术网络来表现候选专家之间的合著关系,并据此识别出潜在的专家及其个人详细信息.3.3模型

Macdonald等人借鉴数据融合技术的思想提出了模型,将对专家的排序问题转化为文档对专家的问题.首先通过IR方法检索出与查询主题相关文档的有序列表,之后遍历文档列表并将每个文档都视为对专家的一次,遍历结束以后按照票数的高低对专家进行排序.

目前对模型的研究工作主要是围绕形式和数据融合技术展开.关于形式的研究,毕文静等人将其归结以下三种:(1)专家获得的总票数;(2)专家支持文档在给定查询下的得分.(3)专家支持文档在给定查询下的得分排名.关于数据融合技术的研究,比较有影响的是expCombMNZ技术.在遍历支持文档列表时,expCombMNZ技术会计算专家在该支持文档上的得分.在遍历结束以后将每位专家的得分总和乘以他的支持文档数,并以此作为对专家进行排序的依据.

4结束语

本文对当前专家检索领域研究中的相关工作进行了梳理与总结,按照研究问题的不同将其划分为两类,即专家知识表示相关研究和专家排序相关研究,然后在两类研究中又分别选取了其中比较有代表性的研究方法进行了较详细的介绍.从其发展过程来看,2005年至2008年的TREC专家检索任务对专家检索的研究起到了极大的促进作用,如本文中所介绍的很多方法都是源于参与专家检索任务的团队的研究.TREC专家检索任务之后,专家检索的研究表现出两个明显的特点:检索的类型从专家扩展到各种实体;检索数据的来源从仅限于组织内扩展到将组织内、外数据相结合,特别是源于互联中的数据.同时,各种不同的研究方法相互渗透,从实际试验效果来看那些能充分挖掘数据特点,合理利用多种不同方法对其进行分析的研究要优于尽使用单一方法的研究.此外,在多源异构数据的使用与整合、语义分类词表及本体的引入、社会网络对专家专长的影响、专家专长的演化等方面,仍有待于进一步的深入研究.

论文集[C],2009.

[2]D.Song,S.M.Ruger.Integratingmultiplewindowsanddocumentfeatureorexpertfinding[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2009.

[3]Zhu,Jianhan,HuangXiangji,SongDawei,RugerStefan.Integratingmultipledocumentfeaturesinlanguagemodelorexpertfinding[J].KnowledgeandInformationSystems,2010.

[4]徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011(8).

[5]赵红斌,陆伟.专家研究领域自动识别研究[J].现代图书情报技术,2010(2).

[6]武浩,王美姣,冯佳明,等.专家检索研究进展[J].计算机应用研究,2010(10).

[7]KrisztianBalog,YiFang,MaartendeRijke,PelSerdyukov,LuoSi.ExpertiseRetrieval[J].JournalFoundationsandTrendsinInformationRetrieval,2012.

[8]MacdonalC,OunisI.Votingforcandidates:adaptingdatafusiontechniqueoranexpertsearchtask[A].ACMPressNewYork,2006.