基于多层面Rasch模型的大规模网上作文评分一致性检测

点赞:22664 浏览:97395 近期更新时间:2024-03-14 作者:网友分享原创网站原创

摘 要:评分不一致是影响评分信度的主要因素.本文运用多层面Rasch分析软件FACETS对评分员在联网状态下作文评分的严厉度与内部一致性进行评估.根据拟合值和偏差值检测出评分不一致的评分员,后期将对他们进行再培训或予以更换,以此来保证大规模考试网上作文评分的信度.

关 键 词:多层面Rasch模型;FACETS;网上评分;信度

中图分类号:G42文献标识码:A文章编号:1009-0118(2013)02-0025-02

一、引言

随着互联网技术的深入应用,在语言测试领域,一种以计算机为基础的网上作文测试及人工阅卷的方法已经开始实施.与传统的阅卷方式相比,保证网上评分的一致性就成了一个亟待解决的问题.本文以湖南大学分级考试(简称CEPT)为例进行研究,使用FACETS(Linacre1999)试图研究两个问题:(一)分析影响大规模考试评分信度的因素及各因素之间的交互作用;(二)探讨如何使用FACETS检测评分一致性.

二、研究背景

(一)多层面Rasch模型用于信度研究

Linacre(1989)在Rasch的基础上提出了多层面Rasch测量(FACETS).它将影响考生得分的因素分为若干层面并将其参数化,这些层面参数相互作用,共同影响考生在某个题目上得分的概率.

在作文测试中,决定考生成绩的因素包括考生能力、任务难度和评分员的严厉程度.FACETS可以在同一洛基量表上对以上因素进行分析,找出各个方面的内部成分之间是否存在显著性差异.模型还可以进行拟合分析,从而反映成分的拟合程度.如评分员拟合值可以表示评分行为的内部一致性.通过分析,我们可以对评分员的严厉度和一致性有一个详细的了解.这也是本文要研究的主要问题.文中将会检测评分员的严厉度是否存在显著差异,评分员对评分标准的掌握是否会出现评分者效应和评分的趋中性、光环效应及偏差(Myford&Wolf,2003,2004).FACETS的另一重要功能是提供偏差分析,从而帮助判断两个方面之间是否存在交互作用.本文将利用这一功能研究评分员与写作任务之间的交互作用.


(二)CEPT写作测试

目前高考实施各省自主命题,题目难度有所不同,考生的分数已不能完全地反映他们的能力,进入同一所大学的新生英语水平也存在显著差异.准确评估新生英语水平能够为大学英语教学提供科学依据.CEPT的目的是对大学新生的听、说、读、写能力进行系统全面的评估.根据测试成绩对学生进行分班教学,分数相当的学生分在同一班级,从而提高教学的针对性.

写作部分要求考生在30分钟内根据题目和相关提示完成一篇作文,题目由电脑从试题库中随机生成,考生的写作也要求在电脑上完成.

(三)CEPT作文评分的实施方法

与经典测量理论和概化理论相比,项目反应理论的优点之一是可以处理丢失的数据,每篇作文不需要所有的评分员都来评分(McNamara1996).作文评分采用交叉设计使得各个层面之间建立关联性(Linacre1989).本文采取的“二读法”就满足了这样的要求:即每位考生的作文分别由两位评分员进行评分.如考生1的作文由评分员1和评分员2评分,考生2的作文由评分员2和评分员3评分,依此类推.

评分标准采用整体评分法.研究表明整体评分法的效率高于分项评分法,在大规模的测试中使用整体评分法更适合.

评分量表采用加拿大语言等级标准,包括“写作任务”、“语法”、“标点和书写”、“词汇使用”、“文章结构”五个评分维度.根据考生作文质量,将其划分为010、020、030、040、050五个等级.最后考生的报道分数为两位评分员打分并加权后总和的平均值的评分等级.

三、数据及其模型

(一)数据来源

本文中的数据来自湖南大学CEPT的一次测试.参加测试者540人,电脑随机地从4道备选题目中选出一道作为考生的写作题目,9位评分员都有一定的教学经验和阅卷经验,其中2位评分员是湖南大学外国语学院的英语教师,7位评分员是语言测试方向的研究生.Brown指出评分员的专业背景不会对评分的严厉度造成影响.

(二)数据分析模型

本研究中,决定考生作文成绩的因素有考生能力、任务难度(即题目难度)、评分员的严厉程度以及Fjk,由此产生的logistic数学模型为:

Log(Pnijk/Pnij(k-1))等于Bn-Di-Cj-Fjk

其中:Pnijk表示考生n在任务i上被评分员j评为k分的概率;Pnij(k-1)表示考生n在任务i上被评分员j评为k-1分的概率;Bn表示考生n的能力;Di表示任务i的难度;Cj表示评分员j的严厉程度;Fjk表示评分员j认为考生获得分数k的平均难度.

四、数据分析

利用FACETS软件分析出需要的数据.从研究目的出发,选取以下3个数据分析结果.

(一)总体分析

从主层面分析图可以观察到以下几点:1、四个写作任务分布在同一水平线上,说明写作任务是等值分布;2、考生能力的度量值分布显示考生的能力成正态分布;3、9位评分员的洛基值在0logit附近,这表明9位评分员评分不太严厉也不太宽松.

(二)评分员严厉度和内部一致性的评估

评分员层面的数据分析显示分隔指数是2.78,信度值0.89,卡方值70.7,显著性p等于.00,表明评分员之间的严厉度有显著差异,我们可以拒绝“所有评分员的评分严厉度相同”的零检测设,因此,9位评分员之间的严厉度存在着显著性的差异.此外,信度(0.89)表明9位评分员之间的一致性较差(信度值趋于0表明评分员之间的一致性较好).较高的信度说明评分员的严厉度相差较大,与所期望的严厉度相当不相符.InfitMnSq表明了评分员内部的一致性.Infit落在0.7-1.3区间内说明评分员内部一致性较好.若Infit大于1.3说明评分员的内部一致性较差;小于0.7说明评分员给出的分数差异性较小,可能存在光环效应或趋中性.因为每位考生仅完成一项写作任务,所以光环效应不存在.分析显示仅3位评分员的内部一致性较好;6位评分员评分过程中存在一定的趋中性,这些评分员应予以进一步的培训,加强对评分标准的理解和掌握.

基于多层面Rasch模型的大规模网上作文评分一致性检测参考属性评定
有关论文范文主题研究: 关于评分的论文范文资料 大学生适用: 学院论文、学士学位论文
相关参考文献下载数量: 22 写作解决问题: 如何写
毕业论文开题报告: 论文提纲、论文设计 职称论文适用: 核心期刊、职称评中级
所属大学生专业类别: 如何写 论文题目推荐度: 经典题目

(三)偏差分析

FACETS提供的偏差分析可以帮助调查评分员与写作任务之间可能存在的交互作用模式,通过分析可以看出评分员是否对4个不同的写作任务一视同仁.评分员和写作任务的偏差分析图显示卡方值32.6,p等于0.63,说明可以接受零检测设所有的评分员对4个写作任务的评分没有显著偏差,可以保持一定的一致性.

五、结语

网络测试、网络评分正在逐渐变得流行和普及.在这种模式下,确保考试的信度是首先需要解决的问题.本文以湖南大学CEPT考试为例,利用多层面Rasch模型对大规模网上作文评分的一致性进行了研究.研究结果表明:(一)评分员的严厉度水平存在显著性差异;(二)评分员内部一致性尚好,但仍有较为严重的评分趋中的现象;(三)评分员和写作任务的交互面上没有显著偏差,评分员保持了一致性.

与本研究紧密相关的后续问题是:当检测到存在不一致时,包括试题难度不一致、评分员内部不一致以及评分员之间不一致时,应该如何进行有效的修正.特别是当检测到不一致存在时,如何实现对考生成绩的自动修正,这具有重要的研究价值和应用价值,应该引起大家的关注.