KMeans算法在计算机等级考试成绩中的应用

点赞:27135 浏览:121961 近期更新时间:2024-03-24 作者:网友分享原创网站原创

摘 要:讨论了数据挖掘技术在计算机等级考试评分系统中的应用.利用聚类分析对考生的得分情况进行分析,得到了各类学生对考题的掌握情况.所得结论对提高考生的过级率以及教师后续教学工作的开展均具有一定的指导意义.

KMeans算法在计算机等级考试成绩中的应用参考属性评定
有关论文范文主题研究: 关于医学院的论文范例 大学生适用: 专科毕业论文、硕士学位论文
相关参考文献下载数量: 47 写作解决问题: 如何写
毕业论文开题报告: 论文提纲、论文目录 职称论文适用: 核心期刊、初级职称
所属大学生专业类别: 如何写 论文题目推荐度: 优秀选题

关 键 词:数据挖掘;聚类分析;计算机等级考试;KMeans

中图分类号:TP301文献标识码:A文章编号:16727800(2012)011001903

________________________________________

基金项目:贵州省科学技术基金资助项目(黔科合J字LKZ[2011]22号)

作者简介:曾旭(1981-),女,硕士,遵义医学院医学信息工程系讲师,研究方向为信息安全、学、数据挖掘;司马宇(1979-),男,硕士,遵义医学院网络技术中心讲师,研究方向为网络安全、信息管理系统.0引言

数据挖掘是从大量数据中发现有趣模式,其中数据可以存放在数据库、数据仓库或其它信息库中.这是一个年轻的跨学科领域,源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算.其它有贡献的领域包括神经网络、模式识别、空间数据分析、图像数据库、信号处理和许多应用领域,如商务、经济学和生物信息学.


数据挖掘的类型很多,如总结规则挖掘、关联规则挖掘、分类规则挖掘、聚类规则挖掘、预测分析、趋势分析和偏差分析等.其中,聚类分析已经广泛应用于市场研究、模式识别、数据分析和图像处理等领域.

1聚类分析

聚类是将数据集划分为若干组的过程,并使得同一个组内的数据对象具有较高的相似性,而不同组中的数据对象具有较低的相似性.聚类是一种无指导的学习过程,事先不知道样本类别,也不知道类别个数.

1.1数据结构

大多数聚类算法采用数据矩阵和相异度矩阵作为数据结构.

数据矩阵是一个对象—属性结构.它由n个对象组成,是利用p个属性来进行n个对象的描述.

相异度矩阵是一个对象——对象结构.它存放所有n个对象两两之间所形成的差异性(相似性).

如果数据以数据矩阵的形式给出,则往往需将数据矩阵转换为相异度矩阵,相异度矩阵可用距离公式计算得到,相异度有时也称距离.

1.2数据类型

聚类分析中常用的数据类型有区间标度变量、二元变量、标称型变量、序数型变量、比例标度变量和混合类型的变量.相异度矩阵的具体计算会因所使用的数据类型的不同而异.

对数据进行标准化处理后,对象间的相似度和相异度是基于两个对象间的距离来计算的.常用的距离度量公式有欧几里得距离公式等.欧几里得距离公式:

1.3相关算法

聚类算法主要可以划分为如下几类:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法.其中,基于划分的方法主要以KMeans算法较为著名.

KMeans算法随机地选择k个对象,每个对象代表一个组的初始均值或者中心.对剩余的每个对象,根据其与各个组均值的距离,将它指派到最相似的组,然后计算每个组的新均值.这个过程不断重复,直到准则函数收敛.

2聚类算法对评分结果的分析

将KMeans挖掘算法应用于遵义医学院计算机等级考试评分系统中,根据该校现有的考试数据可以获得一些聚类结果.现以2010级临床专业某班级40名学生的考试数据为例,采用KMeans挖掘算法进行选择题、Windows操作题、打字题、Word操作题、Excel操作题和网络操作题共6个属性间的聚类分析挖掘.具体数据整理成表1,共包含40条相关记录.由于篇幅关系,本文中只列出原表的基本结构和表中的部分数据.

2.1数据预处理

为了更好地进行聚类分析,需对数据进行标准化,标准化过程遵循的原则是:将各个题型的实际得分数除以该题型的总分,最终得到的标准化值范围是[0,1],标准化结果见表2.具体处理方法如下:

2.2聚类分析

传统的KMeans算法采取随机选择初始聚类中心的原则,这使得不同的初始聚类中心会导致聚类结果的差异,使聚类结果不稳定.为了提高聚类结果的稳定性,根据学生成绩的分布情况,一般有优秀、良好、中等、不及格、较差5个等级,因此,在本文的KMeans算法中,我们设定聚类个数为5个,分别对应5个成绩等级的中心.具体划分如下:

2.3聚类结果分析

从表3可知,第1类学生各类题型的评分情况均较为理想,得分率均超过了0.8000;第2类学生在Excel操作题上得分率偏低,得分率范围是0~1,但是其它各类题型的得分率均超过0.7333;第3类学生得分率的范围处于中间地段,但是也存在部分题型能够取得较高的分数;第4类学生Excel操作题的得分率范围是0~0.35,其它各类题型的得分率处于中间地段;第5类学生能在少数题型上获得高分,而其它题型的低得分率主导了总分偏低的最终成绩.

3结语

由聚类分析结果,可得到以下几个主要结论:

(1)第1类学生全面掌握了各类题型的操作情况,均取得了较为理想的成绩.

(2)第2类学生与第1类学生相比仅仅在Excel操作题的掌握上有少许欠缺,在其它各类题型的把握情况上差别不大.该类学生若加强Excel操作题的练习,便能跻身第1类.

(3)第3类学生基本掌握了各类题型,但仅限于中等水平.该类学生应加强和巩固各类题型的练习.

(4)第4类和第5类学生对各类题型的掌握均有欠缺,但也不排除在某类题型上有较高得分率.由于总体得分率较低,该类学生应加强各类题型的练习.

对考生的计算机等级考试中各类题型的得分情况进行聚类分析挖掘后所得到的结论能够帮生在学习过程中发现自己的缺陷并在后续学习过程中做出针对性的改进.与此同时,教师也可针对各类学生的特点做专门的指导,帮助学生顺利通过考试.此结论对考生和教师来说均具有较强的指导意义.