一种改进的快速聚类方法

点赞:17922 浏览:81113 近期更新时间:2024-01-28 作者:网友分享原创网站原创

摘 要:引入贡献函数对快速聚类算法进了改进,并利用新疆外贸企业收汇标准化数据进行了验证,证明了改进的快速聚类算法具有一定的引导分类作用.

关 键 词:贡献函数快速聚类算法

一、研究目的

快速聚类算法是对数据初步分类的有效算法,但是也存在较大的盲目性,本文尝试通过引入贡献函数解决此问题.

二、研究方法

(一)聚类分析

聚类分析又称群分析,是依据研究对象的个体特征对其进行分类的方法,该分析在经济、管理、社会科学等领域,都有着广泛的应用.聚类分析是一种建立分类的多元统计分析方法,能够将数据根据其表征,按照某些性质上的疏密程度在无先验知识的情况下进行自动分类,产生多个分类结果.在每个分类中个体在该表征之间具有相似性,不同类间个体特征的差异性较大.

(二)快速聚类

快速聚类又称K-Means聚类,它是将数据当做k维空间上的点,以距离作为测度个体“疏密程度”的指标.为达到快速产生分类的结果,K-Means聚类仅产生一个分类结果,且K-Means聚类仅能产生指定类数的聚类结果,类数的确定取决于先验知识.

(三)贡献函数

1.贡献度函数的定义

2.改进后的快速聚类的算法

选择若干个数据作为“伪凝聚点”;根据“伪凝聚点”分配数据,形成临时分类,分配完成后,形成类的凝聚点用类均值代替.“伪凝聚点”值更新为当前类的均值,称为1次凝聚点;可选择地,通过分配每一个观测到与1次凝聚点最近的类来形成临时分类,用这些临时分类的均值,代替1次凝聚点的值,形成n次凝聚点,当类中凝聚点的值改变很小且贡献度函数F达到最大值时,算法停止;最终的分类由分配每一个观测到最近的n次凝聚点形成.形成n个分类,一般情况下n满足2<=n<观测数.

3.改进后的快速聚类算法应用

对外贸易是我国经济发展的三驾马车之一,企业外汇收入是衡量外贸企业盈利能力的重要指标之一,对企业外汇收入进行分类,有利于政府职能部门掌握外贸企业经营状况,做出科学决策提供依据.本文以新疆外贸企业某年收汇数据为依据,对改进的快速聚类算法进行验证.

首先对新疆外贸企业收汇数据进行标准化,并分析数据分布.具体如图1.可以看出新疆外贸企业收汇呈L型,且收汇量较大企业与收汇量较小企业有极大差距.

运用快速聚类算法进行分类,分为5类,具体如表1.可以看出98.4%的企业被分在第五类中,而这些企业的实际收汇额占总收汇额的42%,宏观层面上来看,分类效果较好,也符合实际情况,但从内部结构及企业发展状况来看,分类结果仍需细化,通过将分类选为6-15类时,均与分5类的情况一致.

通过改进的快速聚类算法进行分类,分为7类,具体如表2.可以看出1575个样本企业被分配在7个类中,根据实际情况来看,分为7类能够较清晰的判断出样本的经营状况和规模,同时根据分类后的贡献度占比来看(图2),算法在运行时贡献度函数对原算法有极大的引导作用.

一种改进的快速聚类方法参考属性评定
有关论文范文主题研究: 关于外贸企业的论文范例 大学生适用: 函授毕业论文、高校毕业论文
相关参考文献下载数量: 81 写作解决问题: 怎么撰写
毕业论文开题报告: 论文模板、论文前言 职称论文适用: 期刊目录、中级职称
所属大学生专业类别: 怎么撰写 论文题目推荐度: 优秀选题

三、结语

本文通过对聚类算法的研究,通过引入贡献函数,提出了一种改进的快速聚类算法,通过利用新疆外贸企业的某年收汇标准化数据,对比原快速聚类算法与改进快速聚类算法,改进后的算法具有较强的引导作用,有较好的实际效果.