对义项设立是否贴切的一种检验方法

点赞:3747 浏览:8595 近期更新时间:2024-02-06 作者:网友分享原创网站原创

摘 要:文章根据词义标注的实践设计了一种检验词典义项设立是否贴切的方法,包括建立大规模平衡语料库,随机抽取一定规模语料作为检验库,对抽检语料做完全标注三个步骤.通过该检验方法能发现现有词典义项设立中存在的若干问题.

关 键 词:词典释义 检验 词义标注

一、词义标注对词典检验的启示

释义从一定意义上说是词典编纂的中心工作.一部词典的质量高低很大程度上决定于释义的质量(胡明扬1982).加之词义概括、多义词义项划分、释义几个过程都比较复杂,处置不当容易导致诸如“肢解词的完整理性意义”(邹酆2003)、“义项关系不当”(吴云芳,俞士汶2006)等问题.胡明扬等(1982)指出:“词义概括是否得当,义项划分是否合理等问题,其实是可以通过语料检验的方法来发现并加以改进的.”然而词典释义检验有多大必要性、检验方法应如何设计、通过检验可以解决哪些问题等,尚少细致的讨论.

我们在完成课题“基于国家语委‘通用语料库’之上的汉语义频词库的开发(SCT)”过程中发现,对词典释义的检验不仅必要,而且不能随意为之.课题的核心是计算机词义自动标注,也就是使计算机根据词典的义项设置,给使用中的多义词自动标注一个合适的义项.课题使用的词典是《现代汉语词典》(1996年修订版,以下简称《现汉》),目前已经完成了对3771个高频、双音节多义词的研究.作为课题的一个子项目,我们研制了“验证库”,即首先从大规模语料库中为每个多义词抽取一定量的句子形成语料库,然后由人模拟计算机标注一个义项,再由计算机自动标注义项,两相对照以检验计算机标注的正确率.在这个过程中发现部分句子难以标注,原因有多种:有的是仅凭句内上下文的确无法判断词义;有的是机用词典与普通语文词典的性质与功能不同所致;也有的表现为语文词典原有义项设置不合理.


在涉及词典义项设置的问题上,课题中对《现汉》调整有百余处,当然这些调整主要缘于机用义项库有着不同的性质与功能,调整的类型、原则、方法在《机用义项库在词义标注中的作用及其完善》一文中做了介绍(苏新春等2010),然而其中也不乏传统词典本身可做改进之处,从这个角度来说,我们认为词义标注正是实践了从词典释义回到言语实际的检验过程,对词义标注的结果及其困难进行深入分析就可以发现词典存在的不当之处.本文把词义标注相关课题中与语文词典释义相关的部分提取出来,设计了一种词典释义的封闭式检验方法,希望对一般词典编纂中义项的设立和释义有所帮助.下文就介绍这种检验方法的详细步骤,并举例分析课题中发现的词典释义不当之处.

二、检验方法——封闭式检验的三个步骤

封闭式检验旨在于一个封闭的语料库中,通过词义标注考察词典义项设置是否合理,重点考察一个“词形”所对应的意义的整体范围、义项关系、义项与语料的对应关系,进而分析词典中义项的概括模式、粒度是否与语料契合,个体义项是否恰当.有三个基本步骤:

(一)建立大规模平衡语料库

建立大规模平衡语料库作为基础语料库,要能覆盖一般语文词典的基本范围,语料构成要与词典的性质、定位相对应.我们的课题以现代汉语为研究对象,要求语料能反映现代汉语的基本状况.研制的平衡语料库有2亿多字,主要包括三个部分:(1)国家语委研制的“现代汉语语料库”;(2)部分人民日报语料(2001年后的若干月份);(3)文学作品及部分教材语料.

“‘国家语委现代汉语语料库’是一个大型的通用语料库.该语料库以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务对象等选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌.”(靳光瑾等2005)“国家语委现代汉语语料库”设计比较合理,我们采用了它的基本结构和内容,但其字数略少,语料稍嫌陈旧,因而做了些补充.

(二)随机抽取一定规模的语料作为检验库

随机抽样检验是指从大规模基础语料库中随机抽取一定量的句子组成检验语料库.在SCT课题中确定抽样句子数时考虑到了词频高低、词义标注规则复杂程度(一般标注规则复杂的,其用法也就复杂,就需要更多的语料)、人工标注任务量三个因素.对3771个多义词,抽取的总句子数达493369个,一个词最多有233个句子,最少有100个句子.如此规模的语料量虽很难完全覆盖生僻义、方言义、行业义等不常用的义项,但覆盖词的常用义、较常用义,反映其基本面貌,则是没有问题的.

对义项设立是否贴切的一种检验方法参考属性评定
有关论文范文主题研究: 关于计算机的论文例文 大学生适用: 大学毕业论文、大学毕业论文
相关参考文献下载数量: 97 写作解决问题: 写作技巧
毕业论文开题报告: 论文提纲、论文题目 职称论文适用: 论文发表、职称评副高
所属大学生专业类别: 写作技巧 论文题目推荐度: 经典题目

随机抽取步骤主要从检验方法的可行性方面考虑.在总语料库中检索3771个词总共得到245万个句子,即便有计算机辅助也难以细致分析.检验库规模仅为原来的20%,既能保证充分反映原来大规模基础语料库的特征,又大大减轻了检验的工作量.

(三)对抽样语料做完全性标注是这一方法的核心

完全标注是指在一个封闭的验证语料库中,给每个例词都标注唯一的义项,并保证标注结果的一致性.如不能顺利完成标注,或者标注结果不统一,则分析其根源,检查是否为词典词义归纳、义项设置不当所致.

三、方法的运用——对现有义项存在问题的分析

封闭式检验中对语料进行义项标注的过程,既是对使用中的多义词义域规模、结构进行调查的过程,也是将词典释义与言语实际进行对照,考察每个义项的义域在整体义域中的地位、比例以及与相邻义项关系的过程.其核心意义在于把词的实际义域、词典释义的义域、个体义项义域、个体义项间的关系这几个要素综合起来,做定量考察.不仅可以检验个别义项是否合理,是否有新义、漏收义,更可以从深层次发现词典释义中的义项粒度、义项关系等方面存在的不合理之处.下面举例着重说明在义项粒度、义项关系方面发现的问题.

(一)部分语料无法标注,反映词典中义项粒度过小的问题

多数情况下义项粒度与词典规模、用途有关,在词的整体义域一定的情况下,大型词典义项粒度小,义项数多;小型词典义项粒度大,义项数少,这种义项粒度大小不一的现象是合理的.