高校大规模计算机辅助英语口语测试实证

点赞:31565 浏览:144529 近期更新时间:2024-01-13 作者:网友分享原创网站原创

[摘 要]文章是关于大规模计算机辅助英语口语测试效果的实证研究报告.文章首先通过对比发现,计算机系统自动化判分与教师评分所得成绩的相关度为0.911,说明计算机评分基本可代替教师评分完成直接型口试任务.其次采用定量和定性分析方法,从受试者和教师角度对大规模计算机口语测试的效度和信度进行分析,论证了高校口语机考的可行性和整体测试效果.

[关 键 词]计算机口语测试;效度;信度;可行性

[中图分类号]G420[文献标识码]A[论文编号]1009-8097(2013)08-0076-05[DOI]10.3969/j.issn.1009-8097.2013.08.015

一、引言

随着大学英语教学改革的不断深入,口语教学与测试日益受到重视.如何为口语教学提供更高效科学的测试方法,已成为诸多学者研究的热点之一.为解决传统口试成本过高、学生基数大、教师资源不足、测试者间信度等问题,大学英语口试引入了计算机辅助语言测试(Computer-assistedLanguageTesting,CALT).目前无论是国内还是国外,CALT都处于实验与探索阶段,尚未成为一种成熟的大规模考试形式.为了最大程度的利用计算机技术测试学生的真实口语水平,对大规模计算机口语测试的整体效果进行全面、深入地研究是非常有必要的.鉴于此,本研究从目前我校大学英语正在实施的大规模计算机口语测试入手,以受试者和教师参与口语机考时的认知和态度为切入点,通过对比分析直接型口试教师评分与计算机辅助口试系统自动化判分的实验结果,探究大规模口语机考的效度与信度,从而为高校更有效地实施大规模计算机口语测试提供可行性建议.

二、文献综述

随着我国大学英语口语教学重要性的日益凸显,国内许多学者进行了各种口语测试方法的研究和实践,包括直接型口试、半直接型录音口试和基于现代化手段的计算机辅助口语测试.目前我国高校普遍采用直接型口试来测量学生的口语交际能力,研究者认为,传统的直接型口试比较贴近现实生活中的口语交际活动,在内涵上也体现了语言的交际功能,考官直接参与考生真实的交际活动,直接观察到考生的面部表情以及身体语言,因此具有“表面效度高、灵活性大、针对性强的特点”.但是,受考官资源、评分标准等因素影响,直接型口试的评分信度通常较低.在半直接型录音口试中,考生更注重话语输出的正确性,口语水平的发挥不受考官的语言水平和情绪的影响,因为口试与评分分开进行,半直接型录音口试能采集到更多的语言样本,具有评分信度高和可操作性强等特点,但是其缺乏真实口语交际互动性的弊端也较为突出.

计算机化考试研究始于上世纪70年代,至90年代才开始走向成熟,并真正开始应用于考试的实践中.邱东林等基于高校三次大学英语口语机考实验的基础上,对比分析了直接型口试与计算机口试的利弊,指出后者具有省时省力、操作简便易行、评分相对客观公正、考试语料易于保管的优点.蔡基刚通过对四、六级计算机口试与直接型口试成绩的对比分析,验证了计算机口试的信度和效度,指出计算机口语测试适合目前的社会需求,能够解决考生人数多、考试成本大的难题.高丙梁在比较和分析非英语专业学生在计算机口试与直接型口试中的表现和应试反应后发现,计算机口试不仅在形式和内容上更丰富,而且在评分的准确性和组织实施的效率上都优于其他口试形式.李玉平和金力的问卷调查也表明大部分学生对计算机口试持认同态度,并指出在设计计算机口试的题型时,测试者和测试管理者应充分考虑考生的情感因素,通过听觉、视觉等多感官刺激和多形式试题内容,为考生创造较为真实、轻松的语言交际环境.此外,国内许多研究者在肯定了计算机口试优势的同时,也发现其最不容忽视的问题在于缺乏真实口语的交际交互性.

总的来说,国内专家对计算机口语测试的可行性以及反拔作用等方面进行了初步研究和论证.但是,将计算机口试作为大学英语课程成就测试的一个部分,探讨大规模计算机口试的信度、效度和可行性的研究屈指可数.计算机口试能否在高校大规模使用,取决于其是否具有和直接型口试同样高的信度和效度.根据Shohamy等的观点,如果同一批考生在直接型口试考官评分与计算机口试系统自动化判分中所得成绩具有高相关度,则说明这两个考试具有相同的效度和可替代性.鉴于此,本研究作为对比性研究,将详细介绍我校进行计算机口试的实验,并对计算机口试系统自动化判分和直接型口试教师评分的结果进行对比分析,以学生和教师参与口语机考时的认知和态度为切入点,探究口语机考的效度和信度,为高校实施大规模计算机辅助英语口试提供实证依据和可行性意见.

三、研究过程与研究方法

1.研究对象及方法

研究对象为南京航空航天大学201双语前期大学英语教学实验班的680名学生,通过对研究对象一次计算机口试和一次直接型口试成绩的收集和比较,同时结合学生问卷和教师访谈,分析计算机口试的效度、信度和可行性.

2.研究问题与检测设

本研究拟通过对比实验,并结合定量和定性分析,回答三个问题:(1)计算机口试系统自动化判分和直接型口试教师评分的成绩相关性是否一致?(2)比起直接型口试,计算机口试的效度和信度如何?(3)大规模计算机口试的可行性如何?

3.题型设计与要求

两次口试均以2007年教育部颁布的《大学英语课程教学要求》中对口语表达能力的较高要求为依据,即考生能用英语就一般性话题进行比较流利的会话,能基本表达个人意见、情感、观点等,能基本陈述事实、理由和描述事件,表达清楚,语音、语调基本正确.

本研究首先对参与实验的680名学生进行了直接型口试,口试题型围绕所学教材内容展开,包括简答题(short-answerquestion)和6个主题式对话(talkbasedonagiventopic).每场口试由任课教师主持,2名学生参加.学生在分别回答完简答题后.抽取一个话题,经3分钟准备后进行连续2分钟的对话交流.计算机口试使用的软件系统是由安徽科大讯飞信息科技股份有限公司研制的“畅言英语互动学习平台”.该学习平台的口试题型由短文跟读(60分)和话题表述(40分)组成.短文跟读要求学生在听完示范朗读后,大声朗读出现在测试软件屏幕上的文字,约250词,时间约2分钟.话题表述由学生根据所给提示,自行组织语言进行表述.经2分钟准备后,就所给话题进行连续1分钟的表述,录音时间为2分钟.每种题型只有一次录音机会.学生会看到准备时间和答题时间提示,屏幕下方显示剩余时间.考试结束后,学生提交试卷,计算机将收集记录学生答案的录音文件包,并在屏幕上显示学生的口试成绩(分别给出单项分和总分).为了契合期末考试内容,话题表述由任课教师从畅言英语互动学习平台的口试题库中抽选了与教材主题一致的六套试题,确保话题难易程度接近直接型口试话题.

两次考试的评分依据包括三个方面:语言的准确性和范围、话题的长短和连贯性以及语言的灵活性和适切性.计算机口试系统采取题型分项评分法:短文跟读侧重考察语音语调:话题表述侧重考察语言组织和连贯表达能力.直接型口试采用综合评分法,由任课教师独立打分.每场考试满分均为100分.

4.研究过程

参与计算机口试前,实验对象在计算机中心先行体验了畅言英语互动学习平台及其考试程序,以熟悉该系统的使用.我校计算机中心有250台电脑,分为A、B、C、D、E五个区域.考试当天,学生分三批先后进入计算机中心进行考试,按班级就坐在B、C、D、E四个区域,每人一台电脑,一个带有话筒的耳机.每个区域内有两名监考教师,其中一名为任课教师,另一名为技术人员.学生在电脑上输入学号和即可进入考试界面准备考试.试题由事先准备好的题库随机发放,共有六套试题,每场试题有所不同.相邻座位学生的试题形式相同,内容不同.每场考试时间约为20分钟,其中答题时间为10分钟.A区为备用区域,如果学生在口试过程中遇到机器故障等问题,为了不影响下一批考试,这些学生将统一在A区进行补测.

计算机口试结束后首先对学生进行问卷调查,问卷共有六个问题,调查学生对口语机考的态度,共发放问卷680份,有效问卷674份.随后对参与口语机考的六位任课教师进行集中访谈,了解她们对机考整体效果的认知和态度.

四、研究结果与讨论分析

1.学生成绩对比分析

语言交际能力的评价最终要以测试成绩为依据.为此,对两种测试形式所得的口试成绩进行了描述性统计和相关性分析.

表1和表2显示计算机口试系统自动化判分的分数呈正态分布趋势,成绩集中分布80-84分之间,该分数段集中了25.3%的学生,接近教师评分的分布比例(32.4%),得分在75-79分之间的考生占24.7%,也很接近教师评分(27.4%).但计算机系统自动化判分的均分低于教师评分,其差异在于前者在70-74分之间集中了25%的学生,而教师评分只占3.5%;同样,前者在85-89分数段只集中了10.7%的学生,而教师评分的分布比例为27.4%,这可能是因为学生第一次参加计算机口试,难免会感到紧张,或多或少会影响到口试成绩.此外,直接型口试中教师对学生成绩分布的总体主观把握也会影响学生口试成绩的分布状态.

表3是对计算机口试系统自动化判分和任课教师主观评分的Pearson相关分析,结果表明两者之间的相关度达到0.911.根据金艳和郭杰克的观点,两个不同的考试进行同期效度研究,如果相关达到0.700,应该说是较为满意的.由此可见,这次实验中的计算机系统自动化判分与教师评分具有相当高的一致性.以上分析结果表明,计算机口试在很大程度上能够反映学生的真实口语能力,基本可代替教师批量评分完成直接型口试任务.

2.学生问卷和教师访谈的归纳分析

我们以学生问卷和教师访谈的形式进一步探究了大规模计算机口试的信度、效度和可行性.表4列出了学生对口语机考的认知和态度.

(1)表面效度

效度是语言测试理论中的一项重要指标,包括表面效度和内容效度.表面效度指考生对测试的看法和态度.我们通过问卷(见表4)了解学生对计算机口试态度的数据显示:学生的接受程度高达66%,也有22.3%的学生不能接受口语机考.在测试过程中,学生的情感状态也会影响到他们对计算机口试的态度.直接型口试中,教师的态度会影响学生的焦虑程度.在没有教师直接参与口语交流的情况下,50.3%的学生认为机考能缓解焦虑感,29.3%的学生则表现得更为紧张,这说明在计算机口试中,学生面对新的测试手段内心的焦虑是不可避免的.此外,61.3%的学生认为自己下一次机考的口试成绩会有提高,只有19%的学生持消极态度.

以上这些数据基本说明计算机口试总体上受到了学生的普遍认可,学生大多持积极态度,并且对下一次机考的成绩抱有信心,也就是说,此次大规模计算机口试具有比较令人满意的表面效度.

(2)内容效度

内容效度指测试中的项目与任务是否与测试的总体目标相符.问卷要求学生对自己的整体表现进行自我评价,结果显示,53.7%的学生认为计算机口试能够真实反映他们的口语水平.我校的口语测试为学业考试,所测即所学,试题难易程度取决于教材难度,考试中的口语交际任务与测试的整体目标基本相符,因此学生比较熟悉试题内容,在口语机考中能够发挥自己的正常水平,对自己的表现较为满意.但是,相对于直接型口试而言,有49.7%的学生认为计算机口试缺乏真实性.

参与访谈的教师也一致认为,事先从口试系统的题库中抽取试题,既保障了口试话题与所学教材内容一致,也确保了话题之间的难度系数比较接近.与直接型口试相比,计算机口试解决了耗时多、效率低的问题.但是,有五位受访教师也指出,口试系统虽然可以考察学生的语音语调、语言组织和连贯表达能力,却无法测试学生的语言交际能力,由于是人机对话,学生也无法利用身体语言等手段辅助交际,因此,计算机口试过程缺乏了一定的真实性.针对这一问题,有两位教师认为如果从多维度、全方位去分析口语测试,其真实性是一个相对的动态概念,无论是直接型口试,还是计算机口试,都不可能达到绝对的真实性.经过讨论,受访的六位教师最后达成一致:仅仅通过一场考试就评判学生的语言交际能力是片面的,因为有些学生会因为口试时面对教师而感到紧张,出现忘词或肢体语言不自然等情况,而口语机考则很难做到互动.因此,为了更加全面地评价学生的口语交际能力,需要平衡形成性评价和终结性评价两种考察方式,这样既可以公正地反映出学生口语的真实水平,又可以减轻计算机口试无法考察交际能力的弊端.因此,以上数据分析部分证明了计算机口试能够反映学生的真实口语水平,同时,口语试题具有较高的内容效度.


(3)信度分析

信度是指测试的可靠性程度,表现为测试结果的稳定性,本研究中主要指施考的条件要一致以及阅卷评分要一致.

针对施考条件,受访教师一致认为在直接型口试中,学生在准备话题时会故意让口语好的学生独占话轮,口语较弱的学生则“台词”较少,难以保证每个学生同样的发言时间.此外,直接型口试中排在后面的学生可以向已经考过的学生打听话题内容,这些都影响了考试的公平性.而计算机口试由屏幕出示话题,相邻的学生题目不同,屏幕同时显示每个学生的发言时间,确保了每个学生的样本的量是相同的,公平性也就因此体现出来了.

就阅卷评分而言,58.3%的学生认为计算机口试的评分更加客观公正,只有19.2%的学生持反对意见(见表4).受访教师也指出直接型口试与评分同时进行,是瞬间的,具有不可重复性,教师必须对每组学生的口语样本当场做出准确地判断,给出整体分数,压力较大,如果没有较高的专业素质很难做到公正客观地评分,而且直接型口试评分与教师对学生成绩分布的总体主观把握有关,同时也受教师之间的评分标准不一致、个人喜好、连续评分产生疲劳等众多因素的影响.相较而言,计算机系统自动化判分采取题型分项评分法,不受主观因素影响,使得评分结果更客观、稳定、公正.

高校大规模计算机辅助英语口语测试实证参考属性评定
有关论文范文主题研究: 计算机相关论文范文 大学生适用: 研究生毕业论文、高校毕业论文
相关参考文献下载数量: 14 写作解决问题: 怎么写
毕业论文开题报告: 论文提纲、论文题目 职称论文适用: 期刊目录、中级职称
所属大学生专业类别: 怎么写 论文题目推荐度: 最新题目

由此可见,本次计算机口试在一定程度上保障了施考的条件,确保了评分的一致性,由此提高了测试的信度.

(4)大规模计算机口语测试的可行性

根据以上分析,在保证同样的效度、信度前提下,大规模计算机口试的可行性涉及考试组织实施、考官评分资源、考场设备、考试时间等成本因素.

与直接型口试相比,受访教师认为计算机口试有三点优势:(1)省时、省力.以往需要一周的课时进行随堂口试,而大规模计算机口试只需1.5小时即可完成.(2)语料易于保管.学生的原始声音资料可以完整保留.考试结束后,教师可以按需要进行各种分析,为以后的考试、科研和教学提供各种有益的参考依据,而直接型口试却做不到这点.(3)调动学生学习积极性.这次的口语机考对双语班学生的视听说自主学习起到了督促作用.自从通知学生期末采取机考后,学生对视听说更加重视,课后更是利用“畅言英语互动学习平台”练习口语.因此,计算机口试对大学英语的导向作用很好,不仅缓解了教师的工作压力,还可以有效改变学生哑巴英语的现象.

部分受访教师也指出,尽管计算机口试有较高的效度和信度,系统自动化判分也与教师评分趋于一致,但要让学生完全接受和习惯计算机口试这一新型测试方法,还需要一个适应过程.这次考试也存在一些问题,例如与直接型口试相比,此次计算机口试的题目难度要低一些,题型相对单一.如果建立了试题库的话,就可以事先利用屏幕设计现实生活中各种口语交流的真实情景,使整个考试过程更贴近真实,互动性更好.此外,考试期间,少数计算机发生故障无法使用,虽然对于这类突发事件事先有所准备,学生可以在预留考场重新考试,但是在一定程度上会对学生的考试心理产生负面影响,考试心理素质不够好的学生极易产生焦虑感.

五、结论

计算机口语测试已成为我校大学英语教学中一个新的评估手段.本研究通过对比分析证明计算机系统自动化判分性能与教师评分已非常接近,基本可代替教师批量评分完成直接型口试任务.通过学生问卷和教师访谈发现,计算机口试得到学生和教师的普遍认可,不仅能反映学生的真实口语水平,还降低了学生的考试焦虑感,更能够公正、有效地测试出学生的口语能力,具有较好的测试效度和信度,在高校大规模使用具有可行性.当然,计算机口试的完善有一个以点到面的问题,例如建立试题库、完善考场设备等.大规模计算机口试是我国英语教学改革和教学手段多样化的产物.就目前来看,利用现有的教学技术,实现英语口语测试的现代化,不仅能提高口试的效度和信度、减轻教师工作压力,而且对整个口语教学将会产生正面的反拨作用.目前利用计算机系统自动化判分进行口语测试在高校英语口语测试中尚处于探索阶段,如何更大程度地利用计算机实现接近于真实语言环境的测试,如何将测试目的与测试形式统一起来,还需要进一步的研究.