网站位置: /论文/外文翻译/写作范文资料阅读

关于语料类sci论文翻译,关于融合句法信息的双语词对齐方法相关硕士毕业论文范文

全文下载

本文关于语料及短语及中文方面的免费优秀学术论文范文,关于语料类论文范文数据库,与融合句法信息的双语词对齐方法相关硕士毕业论文范文,对不知道怎么写语料论文范文课题研究的大学硕士、本科毕业论文开题报告范文和文献综述及职称论文的作为参考文献资料下载。

摘 要 :词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容.通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究.利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型.实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的.

关 键 词 :句子对齐;短语翻译;中文短语

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)07-1519-05

自然语言信息处理技术的快速发展,加上互联网的广泛应用和硬件性能的高速提升,已经可以对更多的研究任务、更复杂的自然语言以及更大规模的数据进行分析与实践,尤其是为机器翻译(Machine Translation)的发展注入了新的活力.互译语言之间的词对齐(Word Alignment)研究作为机器翻译领域的重要研究内容,具有重要的学术意义和潜在的应用价值,是一项复杂而具有挑战性的工作.首先,对齐概念已经超过一般意义上的词与词之间的对齐关系,而将其研究范畴扩展到词与短语、短语与词以及短语与短语之间的对齐关系的确立问题,研究者认知受限和语言自身动态演变等因素使得其表述工作相当困难.其次,这个课题交叉于传统的语言学与计算语言学之间,需要有一定的语言学知识和计算语言学理论基础.随着自然语言信息处理技术的不断深入,词对齐的研究正在吸引着自然语言处理领域研究者们的强烈兴趣,促使越来越多的人关注词对齐质量的提高问题[1-4].除了机器翻译以外,双语词典编纂、词义消歧、跨语言信息检索、语言教学等很多与双语处理相关的应用领域也都需要双语词汇间的对应关系[5,6].词语对齐是包括蒙古文信息处理工作在内的诸多文种信息处理工作的一项不容忽略的基础性工作[7].


语料本科论文如何写
播放:32718次 评论:6179人

1.基于可比语料的中蒙句对齐语料

随着网络资源的丰富及信息检索技术的发展,网络资源在双语平行语料的构建研究中也充分得到了体现,中文-蒙古文之间亦是如此.但是,目前可收集到的中文-蒙古文可比语料存在比较严重的噪声.在前期中文-蒙古文可比语料的建立过程中发现,从同一个网站上可以获取到的中蒙对照内容比较少,而通过蒙古文网页标题内容搜索到的相对应的中文网页内容又比较多,而这样获取到的中文-蒙古文双语对照的文本并不是完全对齐的,可能是片段对齐(Fragments Alignment)或是非连续对齐.如图1所示为从网上获取的中文-蒙古文可比语料以及可以获取得到的对齐资源(非划线部分都属于噪声).对目前搜集到的蒙古文和中文对照的双语平行网页文本进行分析,发现60%以上的平行网页中存在蒙古文句子和中文句子间明显不平行的问题,即中文网页文本内容与蒙古文网页文本内容基本相似,但是从句子对齐角度来看,中文网页文本中的句子不与蒙古文网页文本句子完全对齐,存在参差对齐的问题.因此,如何利用非平行的可比语料,抽取较高质量的中-蒙对齐语料是首要解决的关键问题.

[标签
关于融合句法信息的双语词对齐方法的硕士毕业论文范文
关于语料类论文范文数据库
:表格]

2.融合句法信息的双语词对齐

2.1 蒙古文复合词识别及标注方法

考虑到中文和蒙古文之间的词对齐存在的“多对多”的情况,蒙古文复合词是所要引入语言信息特征中的重要特征之一[8].从语言学角度考虑,复合词(pound words)是指表达一定语义的,搭配较为紧密的,由多个词语构成的语法单位,包括短语、固定搭配、习惯用语以及由多词构成的命名实体等.如(中华人民共和国).在词对齐过程中,复合词是一个整体,表达一个完整的意思,应以整体为一个单元看待.

①蒙古文复合词的定义

如果一个词单元A与另外一个词单元B明显相关,或假设词单元A经常出现在词单元B的上下文中,那么(A,B)为复合词.复合词的长度不仅限制在2个词以内,对一些命名实体建立了专门的命名实体库,通过后期利用Web资源可以扩充.

②利用Web蒙古文单语资源,采用统计关联度计算方法抽取相应的复合词

从表2实验结果可以看出,CRFs方法得到的准确率和召回率都是最高的,其次是MEM模型.尽管PSMT方法得到的准确率比LLR方法高,但是它得到的召回率却比LLR方法低.具体分析来看,MEM和CRFs模型都属于判别式模型,而PSMT和LLR是基于产生式方法的,说明面对语料稀缺的中蒙对齐问题,判别式模型较产生式模型可以取得更高的结果.另外,PSMT方法之所以得到最低的召回率值的原因可能是因为LLR统计量的方法、CRFs模型以及MSM方法首先都需要对短语进行切分,对没有意义的短语进行了过滤,而PSMT方法并没有这一步的处理.

4.结论

本文介绍了一种利用中蒙网页可比语料抽取对齐单元的方法.具体地,针对句子对齐语料的获取,提出基于向量空间模型的句子互译相似度计算方法,将源语言和目标语言句子分别形式化表示为向量空间模型,通过源语言特征词语项和目标语言特征词语项之间的互译信息,将源语言向量空间和目标语言向量空间关联起来,最后抽取出满足本文要求的句子对齐单元,针对短语对齐语料的获取,采用条件随机场模型计算短语翻译概率,并综合使用了词汇概率、短语长度比例、短语包含(或不被包含)词数、词性以及构词等多种特征,抽取出对齐的短语单元.值得注意的一点是,在整个语料的建设过程中资源的利用是可重复的、迭代的、不断更新的.实验结果证明,该文提出的思想和方法是可行的,并且是有正确性保证的,这样的工作也会对机器翻译以及双语词典编纂有重要的影响.

参考文献:

[1] Ashish Vaswani Liang Huang David Chiang. Smaller Alignment Models for Better Translations: Unsupervised Word Alignment with the l0-norm[C]. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 311–319, Jeju, Republic of Korea, 8-14 July 2012. [2] Vamshi Ambati, Stephan Vogel and Jaime Carbonell. Active Learning-Based Elicitation for Semi-Supervised Word Alignment[C]. Proceedings of the ACL 2010 Conference Short Papers, pages 365–370, Uppsala, Sweden, 11-16 July 2010.

[3] ElifEyioz, Daniel Gildea, Kemal Oflazer. Simultaneous Word-Morpheme Alignment for Statistical Machine Translation[C]. Proceedings of NAACL-HLT 2013, pages 32–40, Atlanta, Geia, 9–14 June 2013.

[4] Robert C. Moore, A Discriminative Framework for Bilingual Word Alignment[C],Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP), pages 81–88, Vancouver, October 2005.

[5] Robert C. Moore Wen-tau Yih Andreas Bode. Improved Discriminative Bilingual Word Alignment[C]. Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 513–520, Sydney, July 2006.

[6] Abraham Ittycheriah and Salim Roukos, A Maximum Entropy Word Aligner for Arabic-English Machine Translation[C], Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP), pages 89–96, Vancouver, October 2005.

[7] Necip Fazil Ayan and Bonnie J. Dorr, A Maximum Entropy Approach to Combining Word Alignments[C], Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL, pages 96–103, New York, June 2006.


本篇论文转载于:http://www.tjhyzyxy.com/fanyi/459674.html

[8] Yang Liu, Qun Liu and Shouxun Lin, Log-linear Models for Word Alignment[C], Proceedings of the 43rd Annual Meeting of the ACL, pages 459–466, Ann Arbor, June 2005.

[9] 吴宏林, 刘绍明, 于戈. 基于加权二部图的汉日词对齐[J]. 中文信息学报, 2007,1(5).

传神:翻译专家智能译脑

基于语料库的《你是人间的四月天》的英译本译者风格

中国德语专业学生典型口语错误

海洋船舶英语文语料库创建的可行性

西班牙政府借语言优势推动图书出口

《红高粱家族》葛译本之症候性阅读

融合教育论文
多媒体技术和教学的融合三,充分重视技术思想与文化思想的挖掘,体现课程潜在价值课标解读:就信息技术课程来说,当前时代是信息素养培养的时代,其基本特征是技术素养层面的教育与文化素养。

论文目录如何对齐
如何发表论文到核心期刊目录中国农业科学院关于发布《中国农业科学院院选核心期刊目录》的通知,院属各单位,院机关各部门,为推动我院高水平学术成果的产出,引导提升发表学术论文的水平。

论文目录页码怎么对齐
文字数 。怎么发表sci论文2005年与2006年上半年的一年半时间内,生物信息中心发表sci论文共22篇.,其中作为第一作者,单位发表14篇,zhangy,liuxs,liuq。

论文方法
i,ei等收录,可到我校图书馆信息技术部(联系电话:83465067)或其他有资质的检索结构出具检索证明,有以上检索证明后,不再需要刊物检索证明.,国。科学研究方法与论文写作98学年。

硕士论文双盲审
定的比例抽取硕士论文进行双盲外审,每篇硕士学位论文送审2位专家,如2位专家均给出不及格(不同意答辩),。论文格式要求,硕士论文盲审标准2016年师隐匿;,2.将学位论文作者及其导师姓名。

论文检测方法
究生院为我校研究生提供论文相似度检测试用服务.研究生通过登录信息门户进入研究生教务系统可以进行论。检测论文抄袭的软件中学下方法,(一)利用检测软件等技术手段对学位论文进行相似性检。

硕士论文研究方法
.台北:双叶.参考书(讲义)herzog,t。科学研究方法与论文写作98学年度第1学期交通管理系博士班论文研究方法课程规划会议记录,日期:2016/9/15,时间:12:10,地点。

硕士论文的研究方法
.台北:双叶.参考书(讲义)herzog,t。科学研究方法与论文写作98学年度第1学期交通管理系博士班论文研究方法课程规划会议记录,日期:2016/9/15,时间:12:10,地点。

法学论文研究方法
钮文英(2007):教育研究方法论文写作.台北:双叶.参考书(讲义)herzog,t。下载论文模板,写论文研究方法沈阳 2.教育硕士专业学位论文撰写的形式要求,教育硕士专业学位论。

法学论文的研究方法
钮文英(2007):教育研究方法论文写作.台北:双叶.参考书(讲义)herzog,t。下载论文模板,写论文研究方法沈阳 2.教育硕士专业学位论文撰写的形式要求,教育硕士专业学位论。

融合句法信息的双语词对齐方法 Doc版本