跨语言主题词表自动构建技术

点赞:5668 浏览:20055 近期更新时间:2024-01-23 作者:网友分享原创网站原创

[摘 要]认为主题词表有利于信息的组织、信息的利用和信息的检索,传统的手工构建单语言主题词表的方法耗时且成本昂贵,难以满足用户对跨语言信息的处理和使用需求.目前在国内外,如何利用计算机技术,实现跨语言主题词表的自动构建功能是信息检索研究领域需要解决的一个关键问题.在对国内外研究现状进行分析的基础上,较为详细地阐述和分析跨语言主题词表自动构建技术的思想及其技术方法,并提出相关的研究建议.

[关 键 词]主题词表跨语言主题词表自动构建

[分类号]G252

1 引言

随着计算机网络技术的飞速发展,网络已经成为人们获取信息的重要途径,用户不仅可以从网上得到自己的母语信息,也可以得到其他语言的信息.应运而生的数字图书馆为不同语种的文献信息查询检索提供了便利,作为图书馆信息组织和检索的主要工具,跨语言主题词表自动构建技术研究是一个亟待解决并具有深远意义的研究课题.面对海量的、不同语言的文献资源,单语言主题词表已经无法满足图书馆工作人员对跨语言文献的处理需求.客观上需要跨语言主题词表来进行标引和检索;同样检索用户也需要应用跨语言主题词表来提高跨语言文献信息资源检索的效率和质量.在未来的网络环境下,怎么写作于数字图书馆的跨语言主题词表将得到广泛的应用.

2研究现状

主题词表在国外发展一直很快,国外十分重视主题词表在网络环境中的研究与应用,其作用形式主要有三种:主题词表的浏览与查询,在检索数据库中使用主题词表,在搜索引擎中应用主题词表.其中,后两种应用以第一种应用为基础.国外对于单语言主题词表的构建工作已经由传统的人工构建转为由计算机技术参与的半自动或自动的构建过程,国外研究主题词表自动构建技术的代表人物HsinchunChen提出了概念空间方法,并先后完成了针对生物蠕虫领域的主题词表的自动构建和系统开发.对于跨语言主题词表的构建工作,国外的研究工作是在20世纪80年代展开的,并于1985年制定了跨语言主题词表建设所遵循的规范和标准.目前国外发达国家正在积极开展信息资源的开发、管理和有效利用的研究工作,跨语言主题词表的自动构建研究与应用工作已经展开.例如:欧盟组织目前非常重视成员国语言表达在概念层次上的一体化,以实现欧盟信息资源的共享和有效利用.欧洲共同体已经创建了用于跨语言检索的名为Eurovoc的主题词表(eurovocabularythesaurus),它可以支持欧盟22种语言.

我国国内对主题词表构建的研究较为滞后,目前已有的主题词表均是单语言主题词表,如《林业科学主题词表》、《汉语主题词表》等,这些主题词表均由领域专家参与手工完成,我们查阅了国内外的全文文献数据库:万方的中国学位论文全文数据库、中国会议论文全文数据库、万方和维普数字化期刊数据库;国家科技图书文献中心的西文期刊全文数据库、外文会议全文数据库、外文学位论文数据库和西文科技报告数据库,以及万方SpringLink数据库,采用输入相关关 键 词的文献检索方法,对1972年1月至2009年12月的相关文献进行调研,调研的数据统计结果表明:近30年来,国内外相关的研究文献数目是7189篇,其中国外研究文献数目是5380篇,国内研究文献数目是1809篇.从文献数量的分布上看,国内关于主题词表自动构建技术的研究文章仅占国外相关文献总数的1/5左右.其中有关自动构建技术的研究工作更多地侧重于理论研究和探讨,而对于在网络化、数字化时代下,如何实现跨语言主题词表自动构建及其应用的研究工作还未有涉及.其主要原因是:

主题词表使用范围局限于图书馆、情报人员之间使用,普通用户知之甚少.目前已有主题词多为印刷版,电子化速度缓慢,导致主题词表无法在网络上普及和使用.

图书情报研究与网络信息技术的研究未能完美结合,已有搜索引擎大多是计算机人员研制的,过于重视算法,只在时间复杂度和空间代价上考虑,而忽视了信息的组织方法.

主题词表自动标引的研究未获得突破性进展.汉语的特点使自动分词始终成为标引的瓶颈,无论是单机状态还是网络环境中这一问题都制约了跨语言主题词表的研究.

3跨语言主题词表自动构建技术的研究与分析

3.1 跨语言词表构建方法

跨语言主题词表的构建方法可以分为两类:一类是手工构建跨语言主题词表的方法;另一类是自动构建跨语言主题词表的方法.

手工构建跨语言主题词表的方法主要有三种:①重新构建跨语言主题词表:由制表专家人员制定构建规则,确定交换语言(它是其他语言主题词表主题词术语语义对应的媒介与规范处理的参照语言),收集和审定所需语言的主题同表主题词;②翻译现有的主题词表:可以对原有主题词表的主题词术语与结构进行修改,或者仅针对所要翻译语言的主题词术语进行翻译和审定;③合并现有的跨语言主题词表:将现有的同一学科领域的几种单语言主题词表进行合并,重点解决跨语言主题词表之间的主题词术语及词汇语义对应的问题.

手工构建跨语言主题词表的方法的主要缺点是缺乏现实适用性:手工编制主题词表由领域专家、文本描述、语言专家和信息检索专家来共同完成跨语言主题词表的构建,是一个耗时甚长、成本昂贵的过程,它无法解决制表专家们自身存在的“知识获取瓶颈”问题,不利于主题词表的及时更新与维护.此外,由于目前国内图书馆尚没有跨语言主题词表可以使用,采用的主题词表基本上仍是产生于纸质时代的、经手工构建得到的单语言主题词表,这种主题词表应用到网络化、数字化的环境,其自身存在的专业性、局限性和时效性使其难以在各类用户中使用和推广.因此对传统的单语言主题词表进行改造,并开展对跨语言主题词表构建技术的研究是必要的.


3.2跨语言主题词表自动构建技术的研究与分析

跨语言主题词表自动构建技术的研究内容主要包括两个方面:一是主题词表本身的自动构建技术的研究;二是跨语言主题词表词语自动对齐技术的研究.

3.2.1主题词表自动构建技术的研究目前已有的主题词表自动构建技术主要包括:利用人工智能技术的专家系统、利用共现分析和概念空间等技术方法来实现主题词表的自动构建.

人王智能技术的专家系统方法:该方法需要设计一系列的规则来分析用户的检索模式,例如:V.Guntzer等设计的TEGEN系统,就是一个基于知识的具有推理和学习功能的主题词表自动构造专家系统.它通过自动探测和分析词汇之间应用的布尔操作符类型和用户实施的提问扩展类型,再通过用户的相关反馈解决模糊性和不确定性.采用专家系统方法的缺点是:构建的主题词表需要大量的用户交互,而且系统库需要词表在使用中不断地积累和改进,此外专家系统的规则一经确定,维护不易,即专家系统的构建时间较长、工作量大.

共现分析的方法:共现分析是一种采用统计方法的自然语言处理技术,其在词汇的选取方法上通常采用三种方法:①通过词频选词;②通过计算区分值选词;③通过泊松分布取词.共现分析技术通过知识挖掘和知识发现等理论和方法,挖掘语料库中潜在的概念语义关系,这种方法常常能够探测到自由文本库中潜在的知识框架,这正是人工构建方法所不具备的能力.它用覆盖学科领域的文献库作为词表的来源,生成的词表是一种自然语言主题词表,具有比较良好的文献保障,但其缺点是此方法识别的词汇语义关联不十分准确.

利用概念空间的方法:概念空间方法的提出源于Belkin提出的信息检索模型ASK(AnomalousstatesofKnowledz.知识的异常状态)的思想.ASK思想认为:信息的需求源于用户对关注知识的一种“异常”状态,用户往往不能够准确地表达自己的需求,因而对于信息检索系统来说应该帮助用户分析这种“异常”的状态,正确地定位用户的需求.此方法将检索者的状态表达成一个由词汇和其关联关系构成的网络结构,这种网络结构的优点在于有利于识别知识状态的不规则性,更注重人类的认知需求,但此方法在技术的实现上还不成熟,其效果有待于进一步的研究.

3.2.2跨语言主题词表词语自动对齐技术的研究跨语言主题词表自动构建技术的核心问题是需要解决隶属于不同语系的汉语和印欧语系语言之间的一对多、多对一或多对多的主题词词语之间的关系.不同语言词语之间的词对齐算法是构建过程中的一个重要的技术手段.目前已有的词对齐方法有以下三种:

基于词典的词对齐方法:该方法利用双语词典和词仁信息来对齐句子,文献[11]根据词汇翻译模型进行了英法双语句子的对齐,对于汉英语言来说,经过对齐的汉英的句子,还要经过进一步的分词和词性标注、编码转换的处理等过程,由于中文处理的复杂性,文献[12]采用基于锚点词的双语词对齐方法,单纯的词典方法不适合大规模的语料处理,此方法受词典的容量和领域的限制较大.在词典规模较小的情况下,两种语言词语之间的正确匹配率较低,同义词间的替换不易处理,而且难于处理未登陆词.

基于Nit的IBM模型词对齐方法:IBM模型是目前实现词对齐的主流方法之一,在统计机器翻译中,根据贝叶斯公式可推导得到Nit机器翻译的基本方程式:

T等于argmaxP(T)P(S1T) (1)

其中P(T)是目标语言的文本T出现的概率.称为语言模型.P(SIT)是由目标语言文本T翻译成源语言S的概率,称为翻译模型.语言模型只与目标语言相关,与源语言无关,反映的是一个句子在目标语言中出现的可能性,实际上就是该句子在句法语义等方面的合理程度;翻译模型与源语言和目标语言都有关系,反映的是两个句子互为翻译的可能性.

其他词对齐的研究方法:非汉藏语系的语言多数可以满足一对一的翻译检测设,但对于汉语与非汉藏语系语言的翻译,多数的词汇之间是多对一或者多对多的对应关系,此外由于汉语文本中的词与词之间没有自然间隔,所以首先要进行分词处理.对应关系的多元性和分词处理造成的错误使汉英翻译的准确性难以得到保证.国内很多研究学者针对这一汉语文化带来的问题进行了研究,例如:文献[13]提出了一种从英汉平行语料库中自动抽取术语词典的算法,实验语料是计算机手册,计算机术语的专业性和一致性适合文中提出的统计算法.如果采用集合运算来优化词对齐的方法,则会依赖于语料库的质量,如果采用多策略融合的方法,则难以解决各种策略产生的集合关系相容性不好的情况.

4跨语言主题词表自动构建技术的建议

目前国外针对跨语言主题词表自动构建技术的研究尚处于起步阶段,国内研究则处于空白,国外已有的关于主题词表自动构建的技术和方法均是针对西方语言提出的,由于中西文语言隶属于不同语系,它们之间的语法结构和语义信息都不尽相同,因此不能完全复制国外已有的主题词表自动构建技术,借鉴上述国外已有的研究工作,我们认为:跨语言主题词表自动构建技术应重点关注以下问题:

4.1文档的预处理

跨语言主题词表自动构建技术参考属性评定
有关论文范文主题研究: 关于词表的论文范文集 大学生适用: 电大毕业论文、研究生论文
相关参考文献下载数量: 38 写作解决问题: 学术论文怎么写
毕业论文开题报告: 论文提纲、论文结论 职称论文适用: 核心期刊、职称评初级
所属大学生专业类别: 学术论文怎么写 论文题目推荐度: 优秀选题

由于同一个词汇在不同的专业领域、不同的学科往往会有不同的含义,因此选择能够代表特定领域的、大规模的和相对完整的文档集合作为自动构建主题词表的术语及词汇来源是很重要的.从理论上讲,训练文档中包含的文献量越多,构建的质量就越高.训练文档包含的文献可以源于已有的文献数据库,由于网页文件是新词汇和新术语的重要来源,因此对相关学科领域的最新网页文件的收集和处理是必要的.对于数据库的文献、网页文件和未经归类的文献均需进行格式的转换和文档的归类处理,并建成相应的文本数据库.同时需要对文本的内容做一定程度的句法分析技术处理,例如:标识名词和动词,对概念进行初步的识别等预处理工作.

4.2文本的聚类和术语的抽取

在文本的预处理阶段实现的只是初步的文本分类以及术语词性和概念的识别.为了实现最终主题词术语的抽取和词汇间语义关系的建立,对文本做进一步的细化和聚类是必要的.例如可以用文章的标题和关 键 词作为文本聚类的依据,实现文本聚类的进一步处理,以缩小和改善后续的术语提取的规模和质量.对于术语的抽取,可以选取文章的标题、摘 要和正文作为自动构建主题词表术语的自然语言词汇来源,其中包括名词、动词.在文档预处理阶段完成的句法分析基础上,结合已有的专业词典、过滤词汇:①过滤文本中不充当意义的词汇;②过滤高频、但无实际意义的词汇以及低频词汇;③充分考虑短语、先组词的问题,最终产生一个比较有意义的关 键 词集合,在这一集合中,既有规范的主题词术语,也有表达主题词术语结构关系的相关词汇.

4.3跨语言主题词词语自动对齐技术

对于已有的、相对规范的跨语言主题同表,我们可以通过计算机程序和算法实现对其电子版文件的自动格式转换和主题词提取,并结合现有的词典资源,以及借鉴已有的词对齐算法来实现主题词的初步自动对齐和自动映射.但对于词语自动对齐关系的建立,既要以现有同一领域的跨语言主题词表作为跨语言平行语料,也需要建立大规模的跨语言可比语料及平行语料,作为跨语言主题词表主题词术语及词汇的词典后台支持,同时结合自然语言处理的句法分析技术来支持跨语言主题词表主题词术语及词汇之间自动对齐关系在算法上的实现.

5结论

作为图书馆学及情报学信息组织和检索的主要工具,跨语言主题词表自动构建技术研究是一个具有现实意义的研究课题,我们将为此开展更加深入的研究和开发工作.如何自动精确地探测汉语词汇之间的等同关系、等级关系和相关关系,以及如何自动识别和获取跨语言主题词及语义映射关系等问题将是我们的工作重点.