摘 要:本文提出一种,针对专利文献的机器翻译系统中,通过人工撰写模板,提高翻译准确率的同时节省时间和人力的方法.此方法不仅仅限于韩汉翻译系统,也可广泛应用于其他语言之间的翻译系统.
关 键 词 :模板;专利文献韩汉机器翻译
中图分类号:TP391.2
随着计算机科学技术、特别是自然语言处理技术的高速发展,机器翻译技术可以利用其发展而不断进步,已成为未来翻译领域的前沿课题以及大势所趋.自2007年韩国专利文献被纳入PCT最低文献量之后,世界范围内对韩国专利文献的关注度也越显突出.本文介绍一种能够提高专利文献韩汉机器翻译引擎的翻译质量的方法,即基于模板的专利文献韩汉机器翻译研究方法.
1.模板的翻译引擎
机器翻译领域中,统计机器翻译的基本思想即是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译.但统计翻译引擎需要大量的语料进行训练,语料的搜集量以及准确性直接影响其翻译质量,因此怎样有效的搜集大量的对齐语料,并能保证语料的准确性是构建统计机器翻译引擎的一个非常关键的因素,特别是研究人力有限的情况下,这将是一个非常庞大而长期的工程.
基于模板的翻译引擎可在有限研究人力的情况下,弥补统计翻译引擎带来的弊端.运用专利文献的语言特征,编写相对应的模板,针对性比较强,模板覆盖范围比较广,有效解决机器翻译中译文语序混乱、不符合专利叙写规范等问题.
2.模板的设计
有关论文范文主题研究: | 关于模板的论文例文 | 大学生适用: | 本科论文、学院学士论文 |
---|---|---|---|
相关参考文献下载数量: | 54 | 写作解决问题: | 怎么撰写 |
毕业论文开题报告: | 论文模板、论文小结 | 职称论文适用: | 核心期刊、职称评副高 |
所属大学生专业类别: | 怎么撰写 | 论文题目推荐度: | 最新题目 |
2.1 专利文献的特点
仔细观察专利文献的语言特征,不难看出,专利文献带有比较特殊的语法结构.例如:
(1)本发明提供一种由充气式圆环形圈构成的婴幼儿游泳圈;
(2)本发明涉及一种股骨颈保护装置;
(3)本发明涉及冶金渣处理装置;
这些语句都含有“本发明提供/涉及等”的句式;
(4)根据权利要求1所述的股骨颈保护装置,其特征在于:所述的凸缘(12)在股骨(30)与股骨颈(20)相接的表面上略呈弧曲状;
(5)根据权利要求4-6中任一项所述的方法,其特征在于,在步骤B中,所述逐点计算所有计算块的运动矢量的步骤.
上述(4),(5)的例句中都包含“根据权利要求xx,其特征在于等”的句式.基于模板的机器翻译研究即是利用上述专利文献的语言特征,人工撰写对应的语法模板,提高翻译文的可读性.
2.2 模板设计思路
人工撰写模板的意义其实就在于,用计算机语言编写人工语言的语法规则,使计算机熟悉人工语言语法.因此,模板的设计需要考虑每一句的语序安排,以及如何针对性的撰写模板的问题.
图1
如上述举例,韩文和中文的语序存在差异,撰写模板时应考虑此类现象.
3.模板的撰写方法
模板编写是可运用正则文法的表达式,正则文法描述的是搜索文本正文时需要匹配的一个或者多个字符串,因此可用作于将字符模式与要搜索的字符串相匹配的模板.
表1
[] 标记括号表达式的开始和结尾. [ABC]与“ABC”或包括“ABC”的字符串匹配.
{} 标记限定符表达式的开始和结尾. a{2,3}与“aa”和“aaa”匹配.
+ 一次或多次匹配前面的字符或子表达式. zo+与“zo”和“zoo”匹配,但与“z”不匹配.
检测如有“abc/ef/g/hi”这么一段自然语言语句,对应的目标语言为“ABC/HI/EF/G”的语序,那么运用上述符号,可编写以下模板的表达式:
(0){abc}+(1){ef}+(2){g}+(3){hi}等于等于>(0){ABC}+(1){HI}+(2){EF}+(3){G}
图2
3.1 源语言表达方式
由于源语言是韩文,因此规定源语言的参数都以“K”为开头,这样的设置,方便了今后其他语言之间的机器翻译系统的开发.
TEM[max]:无限变量,可以是一个字符,也可以是一个词组,或者一段语句,语句可以带任何标点符号.
KRN:韩文词汇,也可以是词组,复合词等.
KRN_M:韩文短语,包括助词和谓语的组合,或者主语和助词的组合.
KYM:韩文符号,一般指逗号或者分号.
KNU:韩文序列号,专利文中常见的序列号,如第一,第二,或者权利要求1,权利要求2,图1,图2等.
3.2 目标语言表达方式
同样的,目标语言为中文,因此目标语言参数部分都以“C”为开头.
TEM[max]:无限变量,与上述韩文中的符号一样,没有长度限制.
CRN:中文词汇,也可以是词组,复合词等.
CRN_M:中文短语,包括助词和谓语的组合,或者主语和助词的组合.
CYM:中文符号,一般指逗号或者分号.
CNU:中文序列号.
模板中,“@”为促发点,“$”作为结束点.
4.模板的实现与效果
4.1 模板的实现
图3
整套翻译系统是由记忆、模板、规则、统计相结合的方式运行.本论文的模板的实现方法是其中的一环,当输入一段韩文语句,系统会对其进行分词,之后根据记忆库的资源,进行记忆匹配,由于记忆匹配是100%的完整匹配,因此很多情况下,无法找到匹配的语句.之后引擎会根据模板库的资源,进行模板的匹配,一个语句只能匹配一个对应的模板,通过模板的匹配可调整译文的语序,提高译文的可读性.
4.2 模板的分类
模板可根据促发词在语句中的位置,可分为首词模板、尾词模板、任意词模板. (1)首词模板.促发词为语句中的首词的情况下,可写成首词模板.大部分是摘 要 中出现此类模板.例如“本发明公开等”“根据本发明等”等.
源语言: 1.
目标语言:图1是本发明的斜视图.
@
(0){KRN_M[]}+(1){KNU[NUM|]}+(2){TEM[max]}等于等于>(0){STR[图]}+(1){CHN[1]}+(2){STR[是]}+(3){CHN[2]}
$;
(2)尾词模板.促发词为语句中的末尾词的情况下,可写成尾词模板.
源语言:.
目标语言:本发明提供可折叠的便携式椅子.
@
(0){TEM[max]}+(1){TAIL[|]}+(2){TEM[max]}+(3){KOR[]}等于等于>(0){CHN[1]}+(1){STR[提供]}+(2){CHN[2]};
(3)任意词模板.促发词为语句中的任意一个位置(除了句首和句尾以外)时,可写成任意词模板.
源语言:等.
目标语言:含有切割刀片的玻璃切割装置等.
@(0){TEM[max]}+(1){KOR[]<AIL[|]}+(2){TEM[max]}+(3){KRN_M[|]}等于等于>(0){STR[含有]}+(1){CHN[0]}+(2){STR[的]}+(3){CHN[2]}
$
4.3 模板的效果
通过以上的模板的分类以及撰写方法,实验组人工撰写了100个模板,其中首词模板为40个,尾词模板为30个,任意词模板为30个,放到实验组自行研发的韩汉专利文献机器翻译系统.并随机收取100句韩文专利文,进行了模板的测试,得到如下结果.
表2
改进程度 数量
明显 67
一般 25
无改进 8
专利文中,比较典型的句式大部分都得到了很好的改善,输出的译文比较符合专利句式,有助于了解源语言的意境.
源语言:.
原译文:在布发明提供和轨道因为中有厂的故障棚子数.
模板译文:由于本发明提供轨道,因此能够棚子厂的故障.
参考译文:由于本发明提供轨道,因此能够防止机械的故障.
5.结束语
本文提出了利用专利文献的语言特征,运用正则文法的表达式,人工撰写专利文献韩汉机器翻译的模板的方法.并通过撰写100条模板样例,抽取100个例句进行了试验性的测试.通过上述的试验方法,可以看出人工撰写的模板,针对性比较强,覆盖面相对广,有很好的译文句式改进效果.但同时也出现,添加较多的模板之后模板之间发生冲突,导致系统瘫痪,以及引擎选择模板时,混淆类似的模板,导致匹配错模板的问题.此类问题今后需要改进和升级系统来解决.