融合句法信息的双语词对齐方法

点赞:8425 浏览:32701 近期更新时间:2024-02-16 作者:网友分享原创网站原创

摘 要 :词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容.通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究.利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型.实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的.

关 键 词 :句子对齐;短语翻译;中文短语

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)07-1519-05

自然语言信息处理技术的快速发展,加上互联网的广泛应用和硬件性能的高速提升,已经可以对更多的研究任务、更复杂的自然语言以及更大规模的数据进行分析与实践,尤其是为机器翻译(Machine Translation)的发展注入了新的活力.互译语言之间的词对齐(Word Alignment)研究作为机器翻译领域的重要研究内容,具有重要的学术意义和潜在的应用价值,是一项复杂而具有挑战性的工作.首先,对齐概念已经超过一般意义上的词与词之间的对齐关系,而将其研究范畴扩展到词与短语、短语与词以及短语与短语之间的对齐关系的确立问题,研究者认知受限和语言自身动态演变等因素使得其表述工作相当困难.其次,这个课题交叉于传统的语言学与计算语言学之间,需要有一定的语言学知识和计算语言学理论基础.随着自然语言信息处理技术的不断深入,词对齐的研究正在吸引着自然语言处理领域研究者们的强烈兴趣,促使越来越多的人关注词对齐质量的提高问题[1-4].除了机器翻译以外,双语词典编纂、词义消歧、跨语言信息检索、语言教学等很多与双语处理相关的应用领域也都需要双语词汇间的对应关系[5,6].词语对齐是包括蒙古文信息处理工作在内的诸多文种信息处理工作的一项不容忽略的基础性工作[7].

1.基于可比语料的中蒙句对齐语料

随着网络资源的丰富及信息检索技术的发展,网络资源在双语平行语料的构建研究中也充分得到了体现,中文-蒙古文之间亦是如此.但是,目前可收集到的中文-蒙古文可比语料存在比较严重的噪声.在前期中文-蒙古文可比语料的建立过程中发现,从同一个网站上可以获取到的中蒙对照内容比较少,而通过蒙古文网页标题内容搜索到的相对应的中文网页内容又比较多,而这样获取到的中文-蒙古文双语对照的文本并不是完全对齐的,可能是片段对齐(Fragments Alignment)或是非连续对齐.如图1所示为从网上获取的中文-蒙古文可比语料以及可以获取得到的对齐资源(非划线部分都属于噪声).对目前搜集到的蒙古文和中文对照的双语平行网页文本进行分析,发现60%以上的平行网页中存在蒙古文句子和中文句子间明显不平行的问题,即中文网页文本内容与蒙古文网页文本内容基本相似,但是从句子对齐角度来看,中文网页文本中的句子不与蒙古文网页文本句子完全对齐,存在参差对齐的问题.因此,如何利用非平行的可比语料,抽取较高质量的中-蒙对齐语料是首要解决的关键问题.

2.融合句法信息的双语词对齐

2.1 蒙古文复合词识别及标注方法

考虑到中文和蒙古文之间的词对齐存在的“多对多”的情况,蒙古文复合词是所要引入语言信息特征中的重要特征之一[8].从语言学角度考虑,复合词(pound words)是指表达一定语义的,搭配较为紧密的,由多个词语构成的语法单位,包括短语、固定搭配、习惯用语以及由多词构成的命名实体等.如(中华人民共和国).在词对齐过程中,复合词是一个整体,表达一个完整的意思,应以整体为一个单元看待.

①蒙古文复合词的定义

如果一个词单元A与另外一个词单元B明显相关,或检测设词单元A经常出现在词单元B的上下文中,那么(A,B)为复合词.复合词的长度不仅限制在2个词以内,对一些命名实体建立了专门的命名实体库,通过后期利用Web资源可以扩充.

②利用Web蒙古文单语资源,采用统计关联度计算方法抽取相应的复合词

从表2实验结果可以看出,CRFs方法得到的准确率和召回率都是最高的,其次是MEM模型.尽管PT方法得到的准确率比LLR方法高,但是它得到的召回率却比LLR方法低.具体分析来看,MEM和CRFs模型都属于判别式模型,而PT和LLR是基于产生式方法的,说明面对语料稀缺的中蒙对齐问题,判别式模型较产生式模型可以取得更高的结果.另外,PT方法之所以得到最低的召回率值的原因可能是因为LLR统计量的方法、CRFs模型以及M方法首先都需要对短语进行切分,对没有意义的短语进行了过滤,而PT方法并没有这一步的处理.

4.结论

本文介绍了一种利用中蒙网页可比语料抽取对齐单元的方法.具体地,针对句子对齐语料的获取,提出基于向量空间模型的句子互译相似度计算方法,将源语言和目标语言句子分别形式化表示为向量空间模型,通过源语言特征词语项和目标语言特征词语项之间的互译信息,将源语言向量空间和目标语言向量空间关联起来,最后抽取出满文要求的句子对齐单元,针对短语对齐语料的获取,采用条件随机场模型计算短语翻译概率,并综合使用了词汇概率、短语长度比例、短语包含(或不被包含)词数、词性以及构词等多种特征,抽取出对齐的短语单元.值得注意的一点是,在整个语料的建设过程中资源的利用是可重复的、迭代的、不断更新的.实验结果证明,该文提出的思想和方法是可行的,并且是有正确性保证的,这样的工作也会对机器翻译以及双语词典编纂有重要的影响.