基于知网义原信息量的词语相似度计算方法

点赞:4211 浏览:9455 近期更新时间:2024-04-22 作者:网友分享原创网站原创

摘 要:国内利用知网计算中文词语相似度通常采用基于义原距离的方法,这些方法依赖于公式设计和参数选取.根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算词语所包含的义原信息量,将义原及其角色关系的信息量作为词语相似度计算的基本单位,通过计算两个词语的共有义原及其角色关系的信息量和所有义原及其角色关系的信息量的比值来综合计算词语的相似度.实验结果证明,该方法合理可行.

关 键 词:义原信息量;角色关系;词语相似度;信息处理

DOIDOI:10.11907/rjdk.151250

中图分类号:TP391

文献标识码:A文章编号:16727800(2015)006014203

作者简介作者简介:李国佳(1986-),男,山西大同人,硕士,华北水利水电大学软件学院助教,研究方向为自然语言处理;杨喜亮(1981-),男,河南郑州人,硕士,华北水利水电大学现代教育技术中心助教,研究方向为智能信息处理.

0引言

词语相似度计算在信息检索、文本分类、信息抽取、机器翻译等领域有着广泛应用.目前,词语相似度的计算方法主要有两大类:一类是基于距离的方法,如基于WordNet中词语结点的距离来计算英语词语的语义相似度[1],基于知网(How)义原距离来计算中文词语的语义相似度[23];另一类是基于语料统计的方法,这类方法检测设凡是语义相近的词语,它们的上下文也应该相似,利用上下文中词语的概率分布来计算词语相似度[45].

基于知网义原信息量的词语相似度计算方法参考属性评定
有关论文范文主题研究: 关于词语的论文范文集 大学生适用: 学士学位论文、本科毕业论文
相关参考文献下载数量: 20 写作解决问题: 写作资料
毕业论文开题报告: 标准论文格式、论文题目 职称论文适用: 核心期刊、初级职称
所属大学生专业类别: 写作资料 论文题目推荐度: 优质选题

自1999年知网(HowNet)正式发布以来,其受到越来越多研究人员的关注.基于知网计算中文词语的相似度也诞生了很多方法[2,68],这些方法通常根据意义分解思想,将词语分解为更小单位(义原)参与相似度计算,再按照权重比例综合计算词语整体相似度.利用词语分解后的单位(义原)参与计算,割裂了描述词语的各个义原之间的关系,不能充分反应出词语间语义的相似性,计算结果也不够理想.

本文从整体性角度出发,给出一种基于义原信息量计算中文词语相似度的方法.基于知网的分类体系(Taxonomy),将义原及其角色关系整体作为词语相似度计算的基本单位,保留了描述词语概念的各个义原间的关系,并依据信息论中计算两个事物相似度的思想[4],用两个词语共有义原及其角色关系的信息量和所有义原及其角色关系的信息量来综合计算词语的相似度.

1知网义原信息量

1.1义原信息量

其中,P(A)表示义原A在某个语料库样本空间中出现的概率.计算语料库样本空间中某个义原出现的概率很困难.知网作为一个以各类概念及关系为描述对象的知识系统,其分类体系本身可以看作是各个义原出现的一个样本空间,那么仅依赖知网分类体系本身而不需其它语料库,作为计算义原出现概率的样本空间也是合理的.本文给出一种根据知网的分类体系来计算义原信息量的方法.

由义原组成的知网分类体系是一棵概念分类树,在每类义原树状层次结构(以下简称为义原树)中,根结点义原是分类类别,是最大的分类,其它义原都是根结点义原的子孙.可以认为,分支结点义原包含越多的子孙结点,其信息量越小.叶子结点是最小的分类,所有叶子结点的信息量是相同的.

1.2义原及其角色关系的信息量

在知网的知识词典中,每个词语由DEF来描述其概念.将DEF分为两部分:主类义原和特性描述部分.

定义1:义原及其角色关系.

在词语概念DEF的特性描述部分中,将义原及动态角色与特征(EventRoleandFeatures)[9]的层次结构的组合称为义原及其角色关系.

定义2:主类义原.

在词语概念DEF中,把描述词语概念最左边的第一个义原称为主类义原,也称为第0层义原及其角色关系.

例如词语“病菌”的一个概念:DEF等于{bacteria|微生物:domain等于{medical|医},modifier等于{able|能:scope等于{ResultIn|导致:result等于{disease|疾病}}}}.在“病菌”的DEF中,将“bacteria|微生物”称为主类义原,其它部分是特性描述部分.在特性描述部分中,将“domain等于{medical|医}”、“modifier等于{able|能}”称为DEF的第一层义原及其角色关系,其中包含两个本层义原“medical|医”和“medical|医”;把“scope等于{ResultIn|导致}”称为第二层义原及其角色关系,包含一个本层义原“ResultIn|导致”,将“result等于{disease|疾病}”称为第三层的义原及其角色关系,包含一个本层义原“disease|疾病”,依次类推.


其中,I(pj)表示r所包含的第j个义原pj的信息量.

例如在词语“病菌”的DEF中,每层的义原及其角色关系中包含的本层义原信息量均为3.346,根据式(4)可得“病菌”的义原及其角色关系的总信息量为7.946.

在知网中,包含几种特殊符号,如“~”、“?”、“MYM”、“*”.其中,“~”表达的含义是充当一个具体动态角色的值,“?”表示所充当的动态角色的演员一定会出现,“MYM”表示充当某一个动态角色的演员[9].设定模式为“{义原1:{义原2:动态角色或特征等于{~}}}”情况下,“~”所表达内容的信息量等于义原1的信息量.将其它特殊符号及动态角色的信息量设定为一个常数,大小与具体词的信息量相同,为3.346.一个没有义原描述的具体词,其信息量为一个常数,其大小可规定为一个叶子义原结点的信息量3.346.

1.3共有义原及其角色关系的信息量

3实验结果及分析

目前没有可以评估中文词语语义相似度算法质量的专用数据集,本文选取一些常用词语和知网汉语词典中以“病”开头的一些相关词语作为实验对象,与国内著名的刘群方法[2]、知网在线[9]的词语相似度计算方法进行对比分析.刘群方法、知网在线和本文方法的实验参数如表1所示.词语相似度实验结果如表2所示.本文方法与刘群方法、知网在线方法相比较可知,刘群方法是基于义原距离来计算词语相似度,当义原处在同一类义原树中,词语的相似度偏大,例如第3、6组词语相似度结果比本文及知网在线方法的结果都偏大,与人的判断也不一致.实际上,刘群方法在词语相似度计算上不够重视能反映出词语差异的特性描述部分,使得词语相似度计算结果的差异性不够明显,例如第4组词语间相似度结果过于接近.

知网在线方法在计算词语的相似性时更加细化,将词语的义原结构分解为多个部分,赋予各部分不同的权重然后加权计算得到整体间的相似度.这种方法实际上进一步割裂了描述词语的各个义原之间的关系,使得词语相似度计算的结果也不够准确,例如第1、2、5、8、9组词语,计算结果偏小.另外,知网在线方法对词语特性描述部分计算比较复杂,计算量也较大.

综合来看,本文方法的结果整体表现更加合理,能够反映出词语间语义的相似性和差异,与人的判断结果比较一致,计算也简单.

4结语

基于知网义原信息量计算中文词语相似度的方法根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算义原信息量,并根据知网这一关系系统的特性,从保留义原间关系的角度出发,将义原及其角色关系作为计算概念相似度的基本单位,更能全面反映词语语义的相似性和差异.基于知网通过义原及其角色关系的信息量来综合计算词语的相似度,计算量较少,计算结果合理可行.在词语相似度计算基础上,进一步研究句子间相似度计算方法,则有待下一步研究.

[C].台北:第三届汉语词汇语义学研讨会,2002,7(2):5976.

[3]董振东,董强,郝长伶.《知网》的理论发现[J].中文信息学报,2007,21(4):39.

[4]DEKANGLIN.Aninformationtheoreticdefinitionofsimilarity[C].ProceedingsoftheFifteenthInternationalConferenceonMachineLearning,1998:296304.

[5]PHILIPRESNIK.Semanticsimilarityinataxonomy:aninformationbasedmeasureanditsapplicationtoproblemsofambiguityinnaturallanguage[J].JournalofArtificialIntelligenceResearch,1999(2):95130.

[6]夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191194.

[7]张亮,尹存燕,陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报,2010,24(6):2330.

[8]王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11):7590.

[9]董强,董振东.知网简介[EB/OL].[20130129].http://.keenage./.

责任编辑(责任编辑:孙娟)