改进的基于《知网》的词汇语义相似度计算

点赞:7029 浏览:23291 近期更新时间:2024-01-28 作者:网友分享原创网站原创

摘 要:针对当前基于《知网》的词汇语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征的情况,提出一种改进的词汇语义相似度计算方法.首先,充分考虑概念描述式中各义原之间的线性关系,提出一种位置相关的权重分配策略;然后,将所提出的策略结合二部图最大权匹配进行概念相似度计算.实验结果表明,采用改进方法得到的聚类结果F值较对比方法平均提高了5%,从而验证了改进方法的合理性和有效性.

关 键 词:

知网;义原;概念;权重;语义相似度

中图分类号:TP391.1

文献标志码:A

0引言

词汇语义相似度计算在文本聚类[1]、信息检索、机器翻译等领域有着广泛应用.当前词汇语义相似度计算方法大致可分为两类:一类利用大规模语料库进行统计,依据词汇上下文信息的概率分布进行计算;另一类基于某种世界知识来计算,通常是基于某个知识完备的语义词典中的层次结构关系进行计算,例如荀恩东等[2]采用WordNet进行英语词语间的相似度计算,刘群等[3]提出基于《知网》的词语相似度计算等.基于语料库的方法比较精准,但计算比较复杂并且结果容易受训练数据的噪声影响;而基于语义词典的方法简单有效,比较直观,但对词典依赖性较大,且易受人主观意识影响,当前词汇语义相似度计算大多采用该方法.

《知网》是一个以汉语和英语的词语所代表的概念(义项)为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[4].在《知网》中,词汇对应于若干概念,而概念是以义原为基础通过知识库描述语言进行定义的,即概念的义项表达式,义原又通过多种关系进行描述,如上下位关系等,其具体含义可查阅相关文献[3-4].目前大多数学者基于《知网》的词汇语义相似度计算思想是整体相似度可由部分相似度加权平均进行计算.其中比较有代表性的方法如刘群等[3]首先提出的仅考虑义原之间距离因素的词汇语义相似度计算方法,李峰等[5]在前者的基础上所提出的考虑义原深度因素计算方法,Dai等[6]提出的基于《知网》的中英文词间相似度算法,刘青磊等[7]提出的基于信息论的计算方法,王小林等[8]提出的变系数计算方法等.然而文献[9]指出知识库描述语言对概念的描述具有线性关系,但上述计算方法都没有充分考虑该线性关系,使得词汇相似度计算结果不够合理.

本文在深入研究和分析知识库描述语言的结构特征以及现有计算方法基础上,提出一种充分考虑知识库描述语言线性描述特征的词汇语义相似度计算方法,使得词汇间的相似度计算结果更为合理.特别指出,若非特殊说明本文所述的《知网》都是指《知网》2000版.

1词汇语义相似度计算

当前基于《知网》的词汇语义相似度计算大致可以分为三个过程:义原相似度计算、概念相似度计算和词汇语义相似度计算.各具体的计算过程如下所述.

1.1义原相似度计算

《知网》中义原间的相似度计算主要利用义原层次体系中义原之间的各种关系进行计算,例如刘群等[3,5-6]利用义原之间的上下位关系进行计算等.本文选取当前计算方法中两种比较有代表性的义原相似度计算公式进行讨论.

分析以上两种公式可以看出,式(1)只考虑了义原层次体系中义原之间的距离因素对义原相似度的影响.例如,义原{“虫”,“鱼”}与{“物质”,“精神”}分别在义原层次树中的路径距离相等,则它们的相似度相等.但在人们直观理解上,显然前者之间的相似性应高于后者.所以只考虑义原间的距离因素往往计算得到的结果过于粗糙,不够合理.式(2)在式(1)的基础上充分考虑了义原在义原层次树中的深度因素对义原相似度的影响.同样以上述例子进行说明,前一组义原在义原层次树中的深度都为6,而后一组的深度都为2,则依据式(2)进行相似度计算,前者之间的相似度值大于后者,更加符合人们的主观理解,所以采用式(2)计算得到的结果较式(1)更为合理.

1.2概念相似度计算

当前对于概念相似度计算也有许多方法,按照权重系数设置方式不同大致可以分为以下两类:

2改进的词汇语义相似度计算

文献[9]指出知识库描述语言的描述方式具有线性顺序,它对义原的顺序是有规定的,如果破坏了这种顺序,就会导致意义上的错误.但当前的计算方法由于没有充分考虑义项表达式中义原描述式之间的顺序关系,使得概念的相似度计算不够合理,进而导致词汇间的语义相似度计算结果与人们的主观理解不一致.本文主要针对该缺点对现有的概念相似度计算方法进行改进,并结合1.1节和1.3节中所提出的方法进行词汇间的语义相似度计算.由于虚词所对应概念的定义方式比较简单,在此就不作赘述.接下来,本文就如何在概念相似度计算过程中充分考虑知识库描述语言对概念描述的线性关系进行讨论.

2.1位置相关的义原描述式权重分配

分析1.2节相似度检测绍的概念相似度计算方法可知,采用固定权重分配方案的方法需要在实际应用中设定权重系数,结果的合理性与权重系数有很大关系,但是往往很难找到一组适用于计算所有概念间相似度的权重系数,容易受主观因素影响.同时,权重系数固定使得各部分相似度值在合成得到整体概念相似度时所起的作用大小固定且划分后各集合中的描述式之间没有顺序关系,忽略了知识库描述语言的对其描述的线性关系,使得采用该策略的概念相似度计算具有其不合理性.与此相比较,王小林等[8]采用与各描述式集合中元素数量相关的动态权重分配方案的方法,依据义项表达式不同,动态确定各部分在整体相似度中的作用大小;但是在确定权重系数时,完全没有考虑描述式之间的线性关系,所以采用该权重分配策略的计算方法也是不够合理的.下面举例说明上述方法的不合理性.综上所述,在概念相似度计算过程中,若割裂了义项表达式中各描述式之间的线性关系,则计算得到的结果是不合理的.

本文通过深入研究和分析知识库描述语言的结构特征,认为知识库描述语言对概念的描述具有以下特点:

1)义原描述式形式在位置关系上除义项表达式的首位置特定为基本义原描述式外,其他位置以何种形式的描述式对概念进行描述与位置不相关.

2)义项表达式中的各义原描述式所能描述的概念含义抽象程度与其在表达式中的位置相关.即若义原描述式相对于表达式中的位置偏左,描述式中的义原往往分布在义原层次体系的较高层,其所代表的含义比较抽象,更能代表概念的本质属性;而位置偏右的描述式中,义原一般位于义原层次体系中的较低层,所能代表的含义比较具体,能够描述不同概念间的细微差异.

基于以上描述特点,本文提出一种位置相关的权重分配策略用于概念相似度计算.总体的分配思想为:各类型集合间相似度权重系数依赖于集合中的各描述式在表达式中的位置.而描述式权重按下述原则进行分配:表达式中位置偏左的描述式应该赋予较高的权重,而位置偏右的义原描述式之间的相似度应该赋予较低权重.检测设概念C的义项表达式中有n个义原描述式,按照其在表达式中的顺序依次为S1,S2,等,Sn,则每个描述式的权重由以下公式计算所得:

改进的基于《知网》的词汇语义相似度计算参考属性评定
有关论文范文主题研究: 关于语义的论文范文文献 大学生适用: 学位论文、专科毕业论文
相关参考文献下载数量: 41 写作解决问题: 如何写
毕业论文开题报告: 论文任务书、论文前言 职称论文适用: 职称评定、职称评副高
所属大学生专业类别: 如何写 论文题目推荐度: 经典题目

2.2概念的语义相似度计算

在概念相似度计算介绍之前,检测定已经计算得到了义原之间的相似度.首先,按照2.1节所述的权重分配策略为概念的义项表达式中各描述式分配权重,并依照文献[3]提出的描述式类型划分方法把各描述式按形式不同划分为四个集合:独立义原描述式集合、其他基本义原描述式集合、关系义原描述式集合和符号义原描述式集合.然后,分别计算相同类型描述式集合之间的相似度值.其原因在于一般只有相同类型的义原描述式集合间进行相似度计算才有意义[3].最后,对得到的各部分相似度进行求和得到概念间的相似度值.接下来,主要就集合间相似度计算方法进行讨论.


3实验结果与分析

为了验证上述方法的有效性,本文从两个方面对其进行对比实验验证.一方面,采用本文与文献[8]的方法进行词汇间语义相似度计算并将实验结果进行对比分析;另外,将本文和文献[8]的方法应用于文本聚类,并对聚类结果进行对比分析,从而间接地验证方法有效性.

3.1词汇语义相似度实验

本文选取了若干组具有代表性的词汇进行词汇语义相似度计算的对比实验验证.在计算过程中,由于文献[8]及本文主要就概念相似度计算方法作出改进,所以本文将这两种概念相似度计算方法分别结合1.1节和1.3节中所介绍的已有方法进行对比实验分析.表2中的Sim1和Sim2为文献[8]结合文献[3]和文献[5]的义原相似度计算方法得到的结果;表2中的Sim3和Sim4为本文方法分别结合相同的两种义原相似度计算方法得到的结果.其中,实验中的词汇语义相似度计算方法均采用1.3节中所介绍的方法.

3.2聚类实验

由于词汇间的语义相似度计算结果合理性评价往往采用人工方法进行判别,容易受人的主观因素影响.所以本文为了更为客观地验证本文方法的有效性,将文献[8]与本文的概念相似度计算方法应用于词汇语义相似度计算,并以此为基础进行基于语义的文本聚类对比实验.

实验语料采用CNLPPlatform中一个中文文本语料库[11]的子集,共300篇文档.分别从语料库中选取不同主题中的文档进行3组聚类分析实验,其中第一组为环境(11篇)、经济(10篇)、环境(13篇)、艺术(12篇),第二组为教育、交通、环境和艺术各20篇,第三组为环境、艺术、教育和医药各20篇.具体实验过程如下:

1)对每组实验文档进行分词、去停用词等一系列预处理后建立每个文本的特征向量.

2)采用文献[12]提出的文本相似度计算方法计算任意文档之间的相似度值.在该过程中,分别采用了文献[8]和本文的方法计算文本间的词汇语义相似度值.

3)采用K中心点算法(PartitioningAroundMediod,PAM)[13]对文本特征向量进行聚类.

3组实验分别采用不同的概念相似度计算方法进行聚类,

每组实验结果分别采用准确率(Precision)、召回率(Recall)和F值(Fmeasure)[14]的均值进行评价分析,结果如表3所示.

4结语

本文在充分考虑知识库描述语言线性特征前提下,提出了一种有效的义原描述式权重分配方案,并结合二部图的最大权匹配算法以及现有方法进行词汇的语义相似度计算.实验结果表明,采用本文方法计算得到的词汇语义相似度能够更合理地体现词语间语义上的差异性,更加符合人们的主观理解.接下来,将深入研究《知网》对词汇的描述特点,从而更进一步改善词汇语义相似度计算的合理性.