基于汉语框架网络本体的问答系统中语句相似度计算

点赞:12822 浏览:49458 近期更新时间:2024-01-18 作者:网友分享原创网站原创

[摘 要]基于概念图理论提出将汉语框架网络问答系统中问句的语义框架结构与检索文本中句子的语义框架结构的匹配问题转化为概念图匹配问题的思想,将查询概念图与资源概念图的相似度分为框架概念相似度、框架元素概念相似度及句子中语块相似度三个部分.测试表明,这种新的计算问句与答案候选句的语义相似度的方法较之传统基于关 键 词匹配技术的方法效率更高.

[关 键 词]概念图匹配语句相似度相似度计算

1引言

在整个问答系统中,信息检索模块处于一个中间地位,一方面,它接受问题分析模块所返回的带有加权系数的问句的特征信息;另一方面,它从大量收集到的文档集合中,找到与给定的查询请求相关的恰当数目的文档提交给答案抽取模块.信息检索模块对检索结果的筛选并不是一个精确的匹配过程,而是一个相似匹配过程,具有一定的模糊值,需要用相似度值来度量查询与文档集中某个文档之间的相似程度[1].以用户的自然语言提问为检索入口的语义检索系统,需要衡量信息资源中答案候选句与问句的相似度,提取与问句相似度最大的句子,采用适当的格式向用户提交准确答案.因此,语句相似度的计算是信息检索模块的一个关键问题.

2语句相似度的计算方法概述

语句相似度的衡量机制与对语句的分析深度密切相关.从对语句的分析深度来看,目前句子的相似度计算方法主要有两种:①基于向量空间模型的方法[2-3].该方法把句子看成词的线性序列,不对语句进行语法结构分析,相应的语句相似度衡量机制只能利用句子的表层信息,即组成句子中词的词性、位置、词频等信息.由于不加任何结构分析,该方法在计算语句之间的相似度时不能考虑句子整体结构的相似性.②基于句法语义分析的方法[4-5].这是一种深层结构分析法,对被比较的两个句子进行深层的句法分析和语义分析,找出句子的组成词汇信息及语义结构信息.

本文讨论的是封闭式问答系统中问句与检索文本中句子的相似度,由于汉语句子的表达形式是多种多样的,因此重点在于考察问句与检索文本中句子在语义上的相似度.我们采用基于概念图匹配的方法计算法律框架网络检索子系统中用户自然语言问句与答案候选句的语义相似度,该方法也属于第二种.

3概念图及语义框架结构

3.1概念图与概念图匹配

概念图是一个由一些结点和弧线组成的层次结构,其中结点用来表示概念,对应于本体中的类、属性或者实例等;而弧线则表示两个概念之间的关系,对应本体中的关系.

概念图的匹配不是概念图的完全匹配,而是概念图间的相似度计算.文献[6]中阐述了通过WorldNet中两个概念的语义距离得到类之间的语义相似度,然后将各个结点和关系的相似度按权值累加得出两个RDF图之间的相似度.文献[7]也用到了该方法来计算两个概念图之间的相似性.在这两篇文献中,分别把本体看作一个RDF图和一个概念图.为了避免计算时递归陷入无限循环,规定用户指定一个查询概念图的入口结点,已有的被检索的概念图也有一个入口结点,仅仅比较在两个概念图中同等位置的概念的相似性.Poole和Campebll在文献[8]中为概念图的匹配定义了三种相似度,即表层相似度(surfacesimilarity)、结构相似度(structuresimilarity)和主题相似度(thematicsimilarity),表层相似度和结构相似度分别对应于待匹配的对象和关系的相似性,而主题相似度则取决于同时考虑概念和关系出现的特定模式.

基于汉语框架网络本体的问答系统中语句相似度计算参考属性评定
有关论文范文主题研究: 关于框架结构的论文例文 大学生适用: 自考毕业论文、本科论文
相关参考文献下载数量: 34 写作解决问题: 写作资料
毕业论文开题报告: 论文模板、论文目录 职称论文适用: 期刊发表、初级职称
所属大学生专业类别: 写作资料 论文题目推荐度: 免费选题

3.2基于汉语框架网络本体的句子语义框架结构

3.2.1汉语框架网络本体利用框架语义学原理,我们构建了汉语框架网络知识本体,并利用该本体知识对本地库中的文本进行了框架语义标注.按照框架语义学的思想,句子中一个含有述谓意义的词汇激活一个事件场景,场景中有各种角色参加[9].在汉语框架网络数据库中,这个被激活的事件场景被称为“框架”(Frame),参与到场景中的角色被称为框架元素(FrameElement,FE),句子中那些含有述谓意义的词汇就是所激活框架的词元(LexicalUnit,LU).此外,“框架”之间的相互作用形成多样化的框架间关系,包括横向关系和纵向关系.例如,依照概念间的相似性比较形成概念的逻辑关系,属种关系(继承关系)、使用关系、参照关系等;根据概念的个体在空间或时间上的连接性形成总分关系、因果关系等.

3.2.2基于汉语框架网络本体的句子语义框架结构本文所定义的语义框架结构是指利用汉语框架网络本体知识对本地库中或网络上的文本、句子进行概念分析并采用标准化的形式对句子进行框架语义标注所形成的句子的语义逻辑结构,是对句子基于概念层面的、机器可识别的语义理解.

Fillermore曾经这样定义框架这个概念:“当使用‘框架’这个术语时,我心里想到的是一个互相联系的概念体系,对这个体系中任何一个概念的理解都必须依赖对其所属的整个结构的理解”[10].也就是说,语义框架可以是任何一个概念体系,其中的概念之间相互关联,要理解这一体系中的任何一个概念,就必须理解整个概念体系.例如,想要知道“victim”、“perpetrator”、“goods”这些概念的意义,就要知道“Theft”这个概念.因为这些词都是涵盖在“Theft”框架之中,是该框架的框架元素,框架与框架元素之间的关系为“hasFE”.而对“Theft”框架的进一步理解可能还会涉及到“taking”框架和“Commiting_crime”框架,因为它分别是后两个框架的子框架,构成继承关系(InheritsFrom).当这样一个概念结构中的诸多概念中的一个被置入到一个文本或一次交谈中时,该概念结构中其相关的概念都自动被激活.

例如,句子S1“近日,被广东省中山市一家贸易公司招聘为煤场铲车司机兼看守的一名保安人员周绍海因与他人合伙盗煤被中山市中级人民法院以职务侵占罪判处有期徒刑一年六个月”中的目标动词“盗”激活框架Theft(盗窃),相应地,句中的语块(span)“被广东省中山市一家贸易公司招聘为煤场铲车司机兼看守的一名保安人员周绍海”、“煤”和“与他人合伙”激活了该框架中的框架元素Perpetrator(犯罪者)、Means(方式)、Goods(物品).在数据库中,我们将语块与框架元素以及目标词与框架之间的这种激活与被激活的关系定义为填槽或唤醒关系(Fillerof/evokes).每个语块与句子之间是从属关系(Subsumes).据此,利用汉语框架网络本体知识对句子S1的理解所产生的语义框架结构如图1所示: