一种基于领域本体的语义检索系统的设计与实现

点赞:7255 浏览:23517 近期更新时间:2024-01-15 作者:网友分享原创网站原创

[摘 要]基于领域本体的语义检索被认为是解决目前信息检索领域中所面临的困难的途径之一.从语义推理、查询分析等几个关键方面对基于领域本体的语义检索进行研究,在此基础上设计并实现一个基于领域本体的语义检索实验系统,通过测试表明该系统能够较为有效地实现语义检索,提高检索精度.

[关 键 词]领域本体 语义检索 语义推理 Jena

[分类号]G354

1 引言

以计算机技术、通信技术和网络技术为代表的现代信息技术的飞速发展,改善了信息检索技术的软硬件环境,促进了信息检索理论与实践的发展,同时也给信息检索带来了新的挑战.如何从海量信息资源中快速、准确、高效地检索到所需信息,是现阶段值得关注的问题.用户对高质量信息的需求和利用与信息量急剧增长之间的矛盾,尚未得到很好的解决.而语义检索能适应用户的现实信息需求及其发展变化.领域本体描述了领域知识模型,基于领域本体可以实现语义检索,提高检索精度.

目前有不少关于领域本体的语义检索的理论研究论文,但从实践角度构建检索系统,进行测试和评价的论文还很少.本文将以领域本体为基础,研究基于领域本体的语义检索关键技术,并在此基础上设计并实现了一个基于领域本体的语义检索模型,通过测试对该模型的性能和不足之处进行了分析.

2 相关研究

目前绝大多数搜索引擎以及专业全文数据库,都采用关 键 词检索方式.基于关键字(词)的机械匹配进行检索的方式严重地割裂了字、词间的语义关联,检索过程不包含任何语义信息,导致用户查询获得的检索结果不尽如人意.这种查询机制缺乏智能性和知识性,越来越难以满足人们日益增长的知识需求.

为了克服关 键 词检索的不足,学者们提出了另外一种称为概念检索的检索方法,这种方法通过概念词典对用户的检索提问进行规范、查询和扩展来理解用户的检索意图.概念词典一般是由专家手工定义的专业词表或者通过机器学习生成的关联概念空间.概念检索方法虽然克服了基于关 键 词检索中不考虑语义信息的局限性,但不足之处在于概念词典表达的概念关系有限,而且无法表现公理、规则等.

以上两种方法可以看作是初级的语义检索方式,虽然能在一定程度上解决基于关 键 词检索方式的不足,但对于能够理解用户的检索意图,理解关 键 词所表达的语义这些高级功能还无法实现.因此,需要有一种比叙词表、关联概念空间更为丰富的语义表达工具作为检索的支撑,而本体的特性恰好适合于知识表达,能够充分描述知识模型,支持语义推理,同时采用通用的知识建模语言,更适合网络环境下的知识共享和互操作.

3 系统设计

3.1 设计原理

基于领域本体的语义检索系统的设计核心,是在查询和检索资源中引入领域本体层作为匹配和推理的核心部件.与传统的检索方法相比,增加了一个本体检索推理层,其工作机理如图1所示.领域本体在构建的时候已经对该领域的概念进行了分类,每个类别下有具体的实例,每个实例赋予了一定属性关系.系统在获得了用户的检索关 键 词之后,通过语义推理以及RDQL语句的构建,将会对本体库发出查询指令,如果在本体库中存在满足条件的实例,那么该实例就会被检索出来,从而使得计算机“理解”用户的查询意图,本体的查询结果将作为二次检索词对文献资源库进行检索.

3.2 总体设计

根据上述原理,本文设计了一个基于领域本体的语义检索系统,该系统主要由以下四个模块组成:

提问分析模块.主要作用是对用户的提问式进行处理,过滤停用词,抽取具有检索意义的实词并且判断用户的提问中心.

语义推理模块.主要作用是根据用户的提问词进行语义关系判断,判断出各个提问式之间隐含的语义关系,明确用户的真正检索意图.

查询分析模块.在语义推理的基础上,根据语义关系,自动构建RDQL查询语句,对本体库进行查询,并且把查询结果返回给用户.

本体管理模块.主要是本体的浏览、导航和可视化显示作用,通过本体浏览模块可以清晰地发现概念之间的关系,可视化组件可以对领域本体中的概念关系以动态图的形式直观展现出来.

4 系统实现

本文采用Ja语言实现了一个基于领域本体的含义检索系统,该系统所采用的开发环境是Windows2000,JDKl,5,开发工具为JBuilder2005以及语义开发包Jena2.3.

4.1 提问词分析模块

抽词.抽词模块首先对用户的检索式进行处理,抽取其中有检索意义的实词.

检索词标注.利用领域本体中的类别信息对检索词进行标注,将具体实例标注为其所属的类,这是对检索词进行的规范化处理,是建立计算机理解检索词的基础.

抽取提问中心.抽取用户的提问中心,是对用户的检索词进行语义判断的基础.在用户的检索式中,提问中心通常是抽象词,而具体的实例则是对提问中心的限制或描述.抽取提问中心的方法是利用领域本体的类(Class)对检索式进行抽取,抽取到的类名词则为提问中心.

4.2 查询分析模块

传统的信息检索模型是将各个检索词看作是孤立的,忽略检索词之间的语义关系,这也是造成基于关 键 词检索的检索模型在一定程度上返回大量无关检索结果的原因之一.语义关系推理模块正是通过建立语义推理引擎,来判断用户检索词之间的语义关系,对用户的检索提问进行计算机理解.

4.2.1 建立推理引擎的目的本体的查询需要借助RDQL语言,但该语言本身不具备推理功能,只能查询模型中有直接关系的数据,建立推理引擎的目的是将本体中具有隐含语义关联的数据推理出来,获取所有相关联的数据作为P,DQL查询的数据库.推理引擎借助于本体信息及相关的公理描述可以从基本的RDF描述中获取附加的断言(Assertion),经过推理处理可以获得RDF有向图中的所有语义闭包.当用户提交查询从RDF数据模型获取数据时,不仅能得到数据模型本身所含有的数据,而且可以得到由推理机制所产生的知识数据.

4.2.2 建立推理引擎的方法本文中采用的推理方法是利用Jena包中通用规则推理机制,采取工厂化方法(GenericRuleReasonerFactory)获得通用规则推理机,从而引入事先写好的形式化的规则库文件对领域本体库进行推理.之所以选择通用规则推理机是因为考虑到推理机所蕴涵知识的意义和推理效果,RDFS规则推理机(RDFSRuleReasoner)、OWLLite推理机(OWLFBReasoner)等内置推理机对领域本体库进行推理,得出的是基于描述逻辑的推理结果.

4.2.3 建立语义模式库抽取本体库中所有的语义属性(主要针对“ObjectType”属性),按照“Domain,属性名,Range”的形式建立语义模式三元组构成语义模式库.根据语义模式库,经过相关计算就可以确立标注后的检索词之间的语义关系.

4.2.4 确立检索词的语义关系本体中的三元组都是“主语,谓语,宾语”的形式,用户的检索提问通常都是对主语或者宾语提问.通过步骤4.2.1的语义推理已经得到RDF有向图的所有语义闭包,因此若本体库中存在用户提问的检索结果,至多通过两个三元组组合便可以得到检索结果.

本文利用传统的向量空间模型构筑检索词之间的语义关系,将标注后的检索词以及语义模式库中的语义模式视为向量.如果检索向量与语义模式向量的相似度大于规定的阈值,则将该语义模式存入提问候选集.

4.3 查询分析模块

RDQL是Jena中针对RDF的查询语言,这种查询语言将RDF视为三元组,也就是带有向边的图.RDQL提供了一种图匹配策略,查询RDF中满足一定节点的图,查询结果返回匹配到的属性值.RDQL满足一定的范式,类似数据库查询中的SQL语句,因此构建RDQL查询语句的时候,只需要按照语法规则将查询内容和条件填充到指定的位置即可.其中SELECT语句衔接的是从检索词中抽取出来的提问中心;WHERE字句衔接的是查询条件,也就是生成的语义关系组合,即满足一定语义关系的用户查询组合,而FROM和USING语句则分别衔接的是RDF模型和本体的URI地址.以“清代记述栽培的农书有哪些”为例,生成的查询语句如下:

一种基于领域本体的语义检索系统的设计与实现参考属性评定
有关论文范文主题研究: 关于语义的论文范文文献 大学生适用: 研究生毕业论文、学位论文
相关参考文献下载数量: 94 写作解决问题: 如何怎么撰写
毕业论文开题报告: 文献综述、论文结论 职称论文适用: 核心期刊、职称评初级
所属大学生专业类别: 如何怎么撰写 论文题目推荐度: 最新题目

SELECTxWHERE(c:齐民要术,c:has_edtion,x),(c:华东地区,c:collected,x)

USINGcforhttp://.省略/unnamed.owl#

4.4 本体管理模块

本体的管理模块主要是对领域本体的概念及概念关系进行维护,采取树的形式将本体中的类表示为根节点,将实例表示为叶子节点,通过对节点的添加、删除、修改对本体进行维护,有关该模块的构建另有撰文介绍.

本文开发的语义检索系统提供了知识检索和文献资源检索两种检索方式.以古代农学本体为例,检索“中国农业遗产研究室、农史专家”的两种检索方式的检索结果如图2、图3所示.

5 系统测评

为了验证基于领域本体的语义检索的检索性能,本文采用了与传统关 键 词检索进行检索性能对比的方法,使用相同的测试集和检索提问,采用检全率、检准率和F测度三个指标对检索效果进行评价.

5.1 领域本体的构建

作为科技部农业遗产研究的项目,本文采用prot6g6事先构建了一个古农学本体作为测试用本体,选取的研究对象就是以古农书中记载和反映的大田作物的农业生产技术,主要包括作物的耕作和栽培技术、作物选种育种技术、病虫害防治技术、农作物的储藏加工技术等,同时包含重要农书的主题、作者、版本、情况等.

5.2 测试集的选取

本文从《中国农史论文全文数据库》中抽取了1980-2004年《中国农史》、《农业考古》、《农史研究》以及《古今农业》四种期刊中与农学相关的研究论文(主要是大田作物)包括作物品种、选种育种、耕作技术与耕作制度、田间管理、农产品加工以及农书研究等类目的研究论文2196篇,其他数据352篇,按照一定的比例分布构成本次测试的测试集.

5.3 检索提问的设置

检索提问的类型主要分为三种:一种是关于宽泛概念的检索;第二种是关于精确概念的检索,主要是对某个特定概念的检索;第三种是关于语义关系的检索,这类检索,通常为两个以上的关 键 词且关 键 词之间存在着密切的语义关系.我们根据古农学的研究内容,按照上述三种提问类型,每个提问类型下设置三个检索提问,共选取了9个检索主题进行测试,检索测试提问.


5.4 测试结果

在本次测试中,我们采取对系统判断出的相关文献进行人工评价的办法,将检索结果进行手工相关性判断,考虑到易操作性,本次实验仅简单将结果分为相关和不相关两种评判结果.

检索性能的测试结果如图4、图5、图6所示,折线分别是基于本体和基于关 键 词(简称为ont010gy和keyword)两种检索的检全率、检准率和F值数据,横轴为预先设置的检索提问.

5.5 结果分析

在检全率方而,基于本体的语义检索的检全率明显高于基于关 键 词的检索方式(见图4).对于宽泛概念的检索,由于本体收录了宽泛概念所包含的实例,因而检全率明显高于关 键 词方式.精确概念的检索方面,虽然本体收录了概念的同义词,但由于大多数作者对于某一概念习惯于某一种词形方式表达,因而本体在同义词控制方面并没有特别明显的优势.在语义关系的检索方面,由于本体参与计算检索词之间语义关系的计算,因而比关 键 词方式能发掘出更多的隐含概念,检全率也高于关 键 词方式.

在检准率方而,对于宽泛概念的检索和精确概念的检索,基于本体的语义检索和关 键 词检索两者的检索精度并没有明显的优势对比,甚至对于特定检索提问,基于本体的检索精度还出现低于关 键 词检索方式,这主要是由于本体方式检索出了过多的相关概念.然而在语义关系检索上,基于本体的语义检索方式在检索精度上比关 键 词方式表现出了明显的优势,这也正验证了本体可以挖掘检索词的深层语义含义,不仅限于检索词字面的符号形式(见图5).

在F值对比(见图6)中,可以明显地发现基于本体和基于关键字两种检索机制在宽泛检索、精确检索和语义检索三种检索类型中的不同性能.宽泛概念检索以及语义关系检索由于涉及到了隐含概念的查询,因而表现出了比关 键 词检索更高的检索性能.而精确概念的检索由于用户的检索意图已经表述得十分清晰,在这种类型的检索上,基于本体的检索在检索性能上反而略低于关 键 词检索方式,这主要是由于通过检索本体获取了更多的扩展概念,导致了检索精度的下降.

6 结语

本文设计并开发了一个基于领域本体的语义检索系统,可以初步对用户的检索式进行处理,判断其中具有检索意义的检索词之间的语义关系,使得检索词之间不再是孤立的状态,推理用户的检索意图,最终从语义的层面对用户的检索式进行处理,返回最终检索结果.通过实验发现,这种检索机制相比传统的关 键 词检索可以发现潜在的、隐含的语义结果,具有较高的检准率和检全率.同时,也发现了系统在语义检索机制方面还存在着一些不足.在语义关系判断上,目前对于本体系统中存在的语义模式可以成功匹配到,但是对于无法精确匹配到的语义类型目前还不能做到模糊匹配.对本体进行隐含概念的查找的精度还不够,这也是精确概念检索的检准率不高的原因.在今后的研究中,将进一步解决这出问题.