快速DOC算法其学生成绩中的应用

点赞:5377 浏览:17782 近期更新时间:2024-02-17 作者:网友分享原创网站原创

摘 要:针对现有基于密度聚类算法在簇扩展方法上的优势及其聚类判据的弊端,提出了一种融入启发式思想的基于密度的DOC算法.启发式DOC算法通过降低扫描数据的个数,加快DOC算法的运行速度.实验表明,算法在聚类精度、执行效率方面具有一定的优越性,能够发现任意形状分布的数据.

关 键 词:映射聚类;DOC算法;高维数据;学生成绩;启发式算法

中图分类号:TP311.13文献标识码:A文章编号:1007-9599(2013)01-0183-02

1引言

教学管理及教学指导中学生成绩的分析往往缺乏系统的指导,各高等学校普遍所采取的成绩分析方式仅为综合成绩排序、单科成绩排序、平均成绩排序等.常用的数据挖掘方法在发现数据隐藏规律时存在着某些不足,如关联规则[1]发现课程间的关联,需要大量的先验知识;而聚类算法,在高维空间内,由于数据稀疏使得传统的聚类算法[2]不利于高维计算,且无法同时得到课程间的相关性[2].

2映射聚类算法分析

大多数聚类算法都是为聚类低维数据设计的,当数据的维度实际很高时(如超过十维,或者多某些任务中甚至超过数千维),这些聚类方法就面临挑战.这是因为当维度增加时,通常只有少数的几维与某些簇相关,但是其他不相关维的数据可能会产生大量的噪声而屏蔽真实的簇,使之无法发现.采用降维或特征提取来处理这一问题,则在不同的维度上能找到一个分类,同时又会丢失某些分类信息,即每个维度至少涉及到一个分类[4].DOC算法的主要优点是可以发现任意形状的簇,对噪声不敏感,并且对数据的输入顺序不敏感,不用事先指定簇的个数.同时还具有可以自动得到聚类的数目、以及一组维度相差很大的簇、可识别数据点稀少的簇等特点.鉴于此,本文采用DOC算法对学生成绩进行数据分析.

3启发式算法加快DOC运行速度的工作原理及过程

3.1算法的主要思想

启发式算法的运用在提高DOC算法运行速度的同时要以降低聚类的质量为代价,如前面所分析的质量保证.但是,正如下面所讨论的,计算簇大部分情况下与实际应用相关.在每一次内循环中,只计算集合,执行次内循环以后,设为个维度集合中最大的一个,计算.这样只在外循环时扫描数据一次,而无法保证每次返回的簇的质量大于等于,这一方法返回一个一个大小为-密度且维度较大的簇.如大部分模式发现和数据所用中的应用,映射聚类这些属性已经足够了.采用更进一步的方法减少计算量,给定阈值,一旦发现集合,且,计算相关的集合,并返回.另外还设置内循环的上界为MAXITER,这一启发式算法称之为快速DOC算法.

从上述的算法描述可知,先通过外循环计算,从而每计算一个簇只要扫描一次数据集,另外,还需要访问数据以选择随机样本.但是,可以在一次扫描中选择并保存所有的随机样本,且最大为MAXITER.设判别集大小为,内循环次.由于每计算一个簇只要扫描一次数据集,相比常规DOC算法每计算一个簇要扫描m次数据集来说,运算速度有较大改观.

3.2DOC算法的实验和分析

为了校验算法的正确性和有效性,用网格算法、传统DOC算法和快速DOC算法进行了分析比较.图1是在数据个数n等于100k,维数d等于100的数据集上,测试DOC算法和基于网格的聚类算法聚类准确度.

实验数据充分表明,DOC算法作为一种基于密度的聚类算法,不论从准确度还是效率上来讲,都无疑是最优秀的算法,这正是本系统的核心价值体现点.

4快速DOC算法及其学生成绩分析中的应用

考试成绩是衡量学生对知识掌握情况的重要指标,同时,采用映射聚类对学生成绩进行分析可以将学生分为不同的组群,发现各科目间的相关性,为学生选课提供了重要参考依据,校方教务部门也可以据此制定详细合理的教学计划.

4.1确定聚类对象及目标

为了验证本文所提出的DOC算法在学生成绩数据挖掘中的有效性与可靠性,本文以某高校国际贸易专业的学生成绩作为实验对象,经处理得到样本个数为45000个,对应11个科目,详情如下:

5结论

通过归纳总结DOC算法的特点,结合学生成绩的实际情况论文详细的介绍了以DOC算法为基础的学生成绩分析的数据挖掘模型的建立过程.针对学生成绩数据的特点对其中具体的数据预处理过程方法做了有益的探索与尝试,并通过实验证明了该方法的可行性.