中文处理与智能人机接口技术评测

点赞:5841 浏览:19513 近期更新时间:2024-02-07 作者:网友分享原创网站原创

中文信息处理与智能人机接口技术的评测本质上是提供统一的评价基准,评价人机接口技术本身的进步,从而引导相关技术的研究,最终使人与计算机之间的交互能够像人与人之间的交流一样自然、方便.

中文信息处理与智能人机接口技术是计算机与人工智能技术的一个重要研究领域,同时也涉及到语言学、声学、光学、人体工程学等相关领域.中文信息处理与智能人机接口技术研究的目的是为了建立和谐的人机交互环境,使人与计算机之间的交互能够像人与人之间的交流一样自然、方便.

开展中文信息处理与智能人机接口技术的研究,对于改善人机交互的友好性,从而提高人们对信息系统的应用水平,以及促进相关产业的发展都具有重要意义,因此国际上许多发达国家的科研机构和高科技企业投入了大量的人力、物力,开展了相关技术的研究和产品开发.在国家863计划以及其他相关计划的支持下,我国在中文信息处理与智能化人机接口技术方面开展了长期的研究工作,突破了一批核心技术,取得了丰硕的成果.与此同时,随着技术的不断发展,如何科学、客观、公正地评价这些技术,如何开展深层次的技术交流,也成为这一领域中备受关注的问题.

评测的目的

从国内外组织技术评测的出发点和实际所起的作用来看,技术评测的目的和意义主要体现在三个方面:

首先,技术评测为科研提供了一种统一的评价基准.在中文信息处理与智能人机接口技术这个研究领域中,各种算法的研究需要使用大量的数据,包括训练的数据和评价的数据,而这些数据的采集通常具有非常大的偶然性,同一个方法在不同的数据条件下可能得到的结果差异会很大.如果没有统一的测试方法和共同的数据集,不同的算法就几乎不具备可比性.

其次,评测技术本身的进步,对科学研究的进展也起着不可忽视的促进作用.我们以机器翻译为例来说明这个问题.众所周知,机器翻译的译文自动评价是个非常困难的问题.,所以传统的机器翻译评价往往都采用人工评价的方法,但这种评价方法对机器翻译的研究却造成了很大的困扰.因此,机器翻译的研究者迫切需要一种自动的翻译评价方法,多年来许多学者也做过大量的研究和尝试.2001年,IBM公司的Papineni等人提出了基于n元语法的机器翻译自动评测思想,采用这种方法,对于任何一个测试集,只要请若干个不同的人类翻译专家对该测试集进行翻译,得到一个参考译文集合,就可以随时对机器翻译系统产生的结果进行自动评测,而且这种评测与人类专家的评测相比具有较好的相关性.这种方法自从提出来以后,引起了大家广泛的兴趣.NIST从2002年开始组织的Tides机器翻译评测中就开始使用了这种方法.目前这种评测方法已经在机器翻译研究者中得到了普遍的应用,大大促进了机器翻译研究水平的提高.

第三,如果我们站在更高的层次来理解,技术评测对整个领域的科学研究和技术进步所起到的就不仅仅是一个推动作用,从另外一个角度可以说,技术评测还对技术的发展起到一种引导作用.爱因斯坦1938年在《物理学的进化》中说: “提出一个问题往往比解决一个问题更为重要,因为解决一个问题也许是一个数学上或实验上的技巧问题.而提出新的问题、新的可能性,从新的角度看旧问题,却需要创造性的想象力,而且标志着科学的真正进步.”在某种意义上,技术评测就可以起到一个提出问题的作用.

在一些比较成熟的系列评测活动中,评测项目的设置不是静止的、静态的,而是动态的、不断调整的.一些老的评测项目由于各种原因会逐渐退出,而一些新的评测项目会不断出现.这些新任务就是一些新的研究课题,引导研究者去进行相关的研究.由此我们可以看到,技术评测不仅仅是一件单纯的组织工作,而且也是一项非常需要创造力和想象力的工作,尤其是要真正起到对研究的引导作用,需要组织者对整个研究领域有全面深入的了解,对国家和企业的需求有很好的把握.

技术评测的组织

技术评测的组织是一项严谨而繁重的工作,需要采用科学的方法,做大量的沟通协调、合理的分工和周密的安排.

1. 评测的组织过程

通常,一项技术评测的组织周期包含以下几个过程:

(1) 评测任务的确定: 首先确定本次评测的主要内容.

(2) 评测大纲的制定: 明确定义本次评测每项任务,包括评测的指标体系、数据的规模、数据的格式、相关的规范、评测的进度、评测的方式等等.通常,数据又分为训练集、开发集和测试集, 评测的进度通常要规定评测的报名截止日期、各个数据集的发布时间、评测结果的提交日期、研讨会的日期, 评测的方式目前通常都是网络评测,具体实现上也需要规定一些细节,比如通过网页提交还是通过电子邮件提交等等.

(3) 评测大纲的发布: 正式发布评测大纲时,通常要通过各种渠道广泛散发,尽可能让感兴趣的研究者都能获知评测的相关信息.

(4) 评测数据的准备: 根据评测大纲准备评测数据,这个过程工作量较大,同时要保证数据的质量(是否符合规范、一致性如何等),有些数据需要制作参.

(5) 接受参评者报名.

(6) 评测数据的发布: 向报名参评者发布评测数据,包括训练集、开发集和测试集,一般训练集和开发集发布的时间较早,而测试集通常在规定的结果提交日期前几天发布.

(7) 评测结果的提交: 参评者运行各自的系统,并向评测组织者提交运行结果.

(8) 评测结果的评估: 评测组织者对参评者提交的评测结果进行评估,这种评估有些是自动的,有些需要人工进行.

(9) 评测结果的发布: 这种发布有些是公开的,有些只在参评者内部公开.这个步骤有时是在评测研讨会上进行的.

(10) 评测研讨会的举行: 参评者在评测研讨会上进行交流.在研讨会上经常会对评测本身进行讨论,提出改进的意见,并讨论下次评测的有关问题.

2. 评测方法

根据评测项目的具体情况和评测要求,技术评测大致采取两类评测方法: 一类是基于基础资源库的自动评测,即各参评系统在评测组织单位统一提供的环境中运行各系统,对评测数据进行处理,并得到评测结果,评测组织运行统计程序,自动统计各系统的评测结果.采用这类方法进行评测的系统包括分词标注、文本分类、全文检索、语音识别以及大字符集联机汉字识别等.另一类是基于基础资源库的自动评测与事后人工评判相结合的评测,也就是在上述自动评测的基础上,评测组织单位对参评系统生成的评测结果,组织领域专家事后经过人工评判,得到最后的评测结果,采用这类方法进行评测的系统主要有: 机器翻译、自动文摘、语音合成等.

3. 评测的组织形式

从技术评测的组织形式来看,主要有现场评测和非现场评测两类.其中现场评测是指在规定的时间,各参评单位提交参评系统,由评测组织单位运行参评系统,并产生评测结果, 非现场评测则是由评测组织单位提供评测数据,参评单位自己运行系统,然后在规定时间内提交结果.在863计划组织的评测中,2005年以前都是现场评测,2005年进行了基于互联网的非现场评测的试验,目前国际上组织的评测基本都是非现场评测.

863计划中文处理与人机接口评测

863计划中文信息处理与智能人机接口技术的评测(以下简称863中文与接口技术评测)活动起步比较早,上世纪80年代末,国家863计划智能计算机主题(“十五”期间为计算机软硬件技术主题)专家组就开始酝酿通过公开的评测活动,对相关的研究工作进行客观的评价.1990年进行了一次试验性质的语音识别技术评测,共有5个系统参加评测.1991年进行了正式的第一次评测,有语音识别和汉字识别两个类别、16个系统参加评测.到1998年为止,一共进行了5次.“十五”期间又组织了3评测,总共组织了8次评测.其中,2003年和2004年的863评测是和北京市重大科技计划项目支持的“面向奥运的多语言智能信息怎么写作网络系统”技术评测联合举办的.

863中文与接口技术评测,是针对某些关键技术进行的评测,而不是对某个系统的整体水平的评测,更有别于产品的评测.其最主要的目的有三点: 一是了解和掌握国内外中文信息处理和智能人机接口技术领域的现状,检查863计划信息领域计算机主题中相关课题的进展情况, 二是发现关键技术存在的问题,以便在后续863计划中有针对性地给予支持, 三是促进交流和提高,推动技术进步和成果的应用与产业化.

根据863计划课题设置情况,结合相关技术的成熟度和发展趋势,每次863中文与接口技术评测的内容和侧重点有所不同.863中文与接口技术评测曾经设置的类别主要有十大类,包括: 语音识别(ASR)、语音合成(TTS)、机器翻译(MT)、汉语分词(含词性标注和命名实体识别)(SEG)、信息检索(IR)、文本分类(TC)、文本摘 要 (TS)、文字识别(CR)、人脸检测与识别(FR).

863中文与接口技术评测经历了一个不断发展、不断完善的过程.从评测内容和参评系统来看,最早只有语音识别技术一项和5个系统进行评测,到后来最多的时候有8大类的评测内容、113个参评系统.从评测的科学性和难度等方面来看,也有了很大的提高.以语音识别评测为例,早期的语音识别评测采用抽签决定参评系统的顺序,然后由播音员现场朗读的方式,这种方式虽然表面上看起来公平,但由于缺乏一致性,不是很科学,后来发展为与国际接轨的基于统一语音数据库的评测方式,而评测的数据早期是在实验室环境采集的,说话者的普通话也比较规范,后期的数据比较接近真实的应用环境,所以难度也增加了很多.

中文处理与智能人机接口技术评测参考属性评定
有关论文范文主题研究: 关于信息检索的论文范文集 大学生适用: 本科毕业论文、学院学士论文
相关参考文献下载数量: 15 写作解决问题: 学术论文怎么写
毕业论文开题报告: 论文模板、论文设计 职称论文适用: 杂志投稿、职称评中级
所属大学生专业类别: 学术论文怎么写 论文题目推荐度: 最新题目

从评测的性质来看,早期的评测基本上是一种内部评测,参评单位以承担863课题的单位为主,而到了后期,每次就有国外的系统参加评测.此外,评测工作与国际相关单位开展了广泛的交流与合作,目前已与美国的NIST、欧盟的TC-STAR、日本的NICT等机构建立的交流与合作关系,并正朝着国际化的方向发展.[863计划中文信息处理与智能人机接口技术评测的为: .省略.]

(作者单位: 中国科学院计算技术研究所)

链接:与人机接口技术相关的评测

在语音识别方面,国际上最主要的评测是NIST举办的一系列评测.现在的NIST语音识别评测采用的是真实的会议录音材料(有可能是多点同时录音),要求参评系统不仅仅记录下语音所对应的文本,而且要求将这些文本加上标记,标记出其中的语音单元边界、说话人、时间、编辑词、过滤词、中断点等信息.相当于做一个完整的会议记录,其难度可想而知.

在信息检索方面,国际上最有影响的评测是TREC(信息检索)评测,这也是美国NIST主办的.TREC评测从1992年开始举行,目前已经形成了比较固定的周期,通常是7~9月份提交结果,11月份召开会议.TREC参评单位众多,来自世界各地的250个以上的研究团体参加过TREC评测.现在,从TREC评测中又派生出了两个专门的评测: TRECVid(视频检索)和QA(问答).除了TREC之外,国际上还有两个信息检索评测,分别是欧洲的CLEF评测和日本的NTCIR评测.这两项评测比较侧重于跨语言的信息检索,主要分别针对欧洲和亚洲的语言进行评测.


在机器翻译方面,现在国际上较有影响的评测也是NIST举办的机器翻译评测.DARPA很早就开始进行机器翻译评测,从2002年开始在DARPA TIDES项目的支持下,NIST开始举办固定的每年一次的机器翻译评测.近年来NIST机器翻译评测中,采用统计方法的机器翻译系统表现非常出色,参评系统的性能指标逐年提高,引起了人们广泛的兴趣.NIST的机器翻译评测主要关注汉语-英语和阿拉伯语-英语两个翻译方向,这与美国政府对于获取情报的关注是一致的.除了NIST评测以外,国际口语翻译的学术研究团体C-STAR从去年起也开始举行每年一度的机器翻译评测,这项评测比较侧重于口语语料的翻译,基本不考虑篇章语料.

除了上述的评测外,很多其他的研究方向上也有一些较有影响的评测,例如MUC(消息理解会议)评测、ACE(自动内容抽取)评测、TDT(话题检测与跟踪)评测、DUC(文档理解会议)评测等等.关于汉语分词,有一个SIGHAN Chinese Word Segmentation Bakeoff(汉语分词大赛)评测,简称SIGHAN评测.SIGHAN是国际计算语言学会(ACL)下属的一个特殊兴趣小组,每年举办一次研讨会.2002年第一届SIGHAN研讨会举办的时候,就进行了一次分词比赛,产生了较大的影响,2005年的第四届SIGHAN研讨会举办了第二次汉语分词大赛.