英语写作自动评分系统的不一致性

点赞:31311 浏览:144755 近期更新时间:2024-02-16 作者:网友分享原创网站原创

【内容摘 要 】写作测试作为一种测试效度很高的考试形式被各种类型的考试广泛采用.随着测试科学与统计学的结合,机助写作评分系统得以产生,但是,英语作文自动评分系统的评分信度与效度仍受到质疑,因此,有必要研究自动评分系统在给作文评分时的差异性以增强不同自动评分系统的一致性.本文通过比较“冰果英语智能作文评阅系统”和“新视野大学英语在线学习作文自动评分系统(1.0版)”,得知英语写作自动评分系统之间存在不一致性.

【关 键 词】英语写作评估 自动评分系统 评分不一致性

一、研究背景

自动作文评分(AES,Automated Essay Scoring)是一项使用计算机对作文进行评估与记分的新技术,其实质就是基于已准确人工评分的训练作文集的自动文本分类,但其分类标准除内容外,更要兼顾语言的运用.该项技术的研究起始于20世纪60年代,采用了统计、自然语言处理(NLP)、及人工智能等方面的最新成果,并于1999年进入实际应用阶段.至今已经有多个国家开发出针对英文的作文自动评分系统,如PEG(Project Essay Grader),IEA(Intelligent Essay Assessor),E-rater(Electronic Essay Rater), IntelliMetric 和最近的Writing Roadmap等等.

由于英语作文自动评分系统稳定可靠,与人工评语作文比较,速度快、评价客观,可以克服大规模人工评阅带来的诸多弱点.可以使学生多练多写,老师省时省力,在此前提下,有望促进大学生和高中生英语写作教学的改革,提高学生的英语写作能力,激发他们进行“自主性探究学习”和“创新学习”.该系统有以上优点,在一定程度上缓解了英语教师人工批阅作文的工作量,因而受到很多教师的青睐,也被许多院校采用.在目前,中国此方面正属于研究与开发之中,其中,冰果英语智能作文评语系统(以下简称为“冰评”)是浙江大学外国语学院与杭州增慧网络科技有限公司联合研发的一套针对高等院校及高中生英语写作教学的计算机自动评阅作文的教学怎么写作产品;新视野大学英语在线学习作文自动评分系统(以下简称为“新评”)是有外研社研发并被许多高等院校普遍使用,该系统的功能是对作文自动评分、给出评语,并对作文中的单词进行拼写检测.然而,在使用的过程中,冰果英语智能作文评阅系统与新视野大学英语在线学习作文自动评分系统在信度与效度方面存在着不一致性的问题.针对此问题,对西南大学计算机与信息科学学院学生的英语作文进行了教学实证研究.

二、研究设计

1.研究对象

西南大学计算机与信息科学学院大学一年级本科教育技术班43名学生参与了本次实验活动.参与实验活动的学生经过接近一年的大学英语学习,系统地学习了语篇知识和写作组织结构,掌握了基本的英语段落行文方式.为了测出他们的真实水平,保证实验数据结果的有效性和可信度,引起学生对本次实验的重视,提前告知了学生本次写作的成绩将纳入平时成绩的评定范畴,按15%计算,且并未告知学生他们正在参与一项实验.

英语写作自动评分系统的不一致性参考属性评定
有关论文范文主题研究: 关于英语写作的论文范文检索 大学生适用: 高校毕业论文、研究生论文
相关参考文献下载数量: 26 写作解决问题: 写作技巧
毕业论文开题报告: 文献综述、论文小结 职称论文适用: 论文发表、初级职称
所属大学生专业类别: 写作技巧 论文题目推荐度: 免费选题

2.研究工具

此次实验研究所用的工具之一是两个英语学习微机室.这次写作规定了完成时间为30分钟,学生有条件在统一的时间开始写作,并在规定的时间之内提交.另一个研究工具就是学生的作文样本,该作文材料选自2011年大学英语四级考试.

3.研究方法

英语教师将布置的作文题目和要求输入到冰果英语智能作文评分系统后,会有一个相应的作文序列号.学生可根据序列号查到作文题目和要求,按要求完成作文后,学生将作文的电子版同时提交到冰评(在作文提交截止日期之后48小时之内,系统会对学生的作文进行1分至15分的整体评分)与新评(作文提交之后,系统会立即对学生的作文进行1分至15分的整体评分)中.

三、数据收集与分析

本研究最终采集到的有效样本为37份(有6名学生的作文未能正确提交到系统,不在统计之列),由冰评和新评分别以整体评分的方式进行了评分.为得到这两个英语写作自动评分系统之间的相关系数,采用了外语教学研究中常用的SPSS软件进行了数据统计分析.冰评与新评的对比分析结果如下:

从上表可知,冰评和新评评分的平均分分别是8.4811分和6.7027分.冰评和新评评出的最高分分别是12.00分和14.00分,差值为2分,然而,两个评分系统最低分的差值为3.5分.表面上看起来冰评和新评的分均分差不多,但是,当比较各自最小平均分和最大平均分差值的时候,幅度范围却是从6.50分到12.00分.这意味着冰评评分时比较严,给出的评分差值幅度更小,而新评评分时比较松,给出的评分差值幅度更大.


表2、表3和表4显示了双尾t检验的结果,在给出的平均分方面,冰评和新评都有显著差异.由于df值为36,t值为3.190,查t值表可以得出df等于36,t(0.05)等于2.028,t(0.01)等于2.719,3.190>2.719,所以双尾t检验的显著性概率p<0.01.即是说,在0.01的水平上,t值是非常显著的,这两个英语写作自动评分系统评分时存在着不一致性.

皮尔逊相关系数小于等于0.01,即为没有相关性,数字越小,相关性越弱.冰评和新评的皮尔逊相关系数为0.001,小于0.1,显然二者之间显著不相关,即具有不一致性.

F值为4.129,并当df1为5,df2为31时,可得到F值为3.65(a等于0.01).由于4.129大于3.65,可以得出p值小于0.01,就是说冰评和新评的评分结果显著不同,这两个评分系统的评分是不一致的.

四、结论

作为英语写作自动评分系统,冰果英语智能作文评阅系统和新视野大学英语在线学习作文自动评分系统确实有很多好处,不但可以应用于日常的外语教学中,使评教作文的方式变得更加多样化,而且学生还可以自由安排写作练习,能借鉴评分系统提供的修改意见,逐步提高写作水平.但是,由于各个英语写作自动评分系统所使用的核心技术不同,评阅出来的得分不一致,也会给学生造成困惑,不能够很好地了解自己的真实水平.因此,教师应该将这些英语写作自动评分系统与人工评分结合起来使用,才能真正达到提高学生写作水平的目的.