有关数据预处理的

点赞:17544 浏览:81009 近期更新时间:2024-03-01 作者:网友分享原创网站原创

摘 要本文对居中型和区间型两种适度指标进行论证和例证,考察了这两种数据处理方法对主成分和因子分析这种综合评价结果的影响.另外,本文用文献①“初始化”思想对极差法进行分析,得到结论,即处理后数据的协方差矩阵不仅消除了指标量纲和数量级的影响,还能包含原始数据的全部信息.

关 键 词数据处理同趋势化标准化变异

中图分类号:TP391文献标识码:A

TheDiscussionofDataPreprocessing

LIANGXiaojia,ZHOUJuling

(DepartmentofMathematicalsciences,XinjiangNormalUniversity,Urumqi,Xinjiang830054)

AbstractArgumentandillustrationofsomekindsofappropriateindicatorsisdoneinthispaper,suchastheindicatorsofmediumandinterval.Andthepaperlooksattheeffectoftheprehensiveevaluationresultromthetwodataprocessingmethodonprincipalponentsanalysisandfactoranalysis.Inaddition,thisarticleanalysestheprocessaccordingtothemethodof"Initialization"intheliterature[1],thenetoaconclusionofwhichthedatacovariancematrixafterprocessingnotonlyeliminatetheinfluenceofindexdimensionandorderofmagnitude,andalsocancontainalltheinformationintherawdata.

Keywordsdataprocessing;munalities;standardized;variation

0引言

综合评价是依据被评价对象的过去或当前一段时间的相关信息,对被评价对象进行客观、公正、合理的全面评价.由于来自实际的指标数据可能是各种各样的,每个评价对象又涉及多个指标,特别是对于不同类型、不同单位、不同数量级的数据存在着不可公度性,所以在一个较复杂的综合评价问题中,可能同时含有极大型指标、极小型指标、居中型指标和区间型指标.做这样的综合评价问题时,必须先将不同类型的数据做一致化处理,即通过一定的数学变换把性质、量纲各异的指标转化为可以综合的一个相对数,即对数据进行标准化.

对于数据的处理,目前很多学者已经进行了多方面的研究,并已获得了一定成果.例如:韩中庚提出了定性数据指标的量化处理方法;②陈军才论述了同趋势化方法对综合评价的影响,并指出了适用条件;③张立军、袁能文分析与比较了各种指标一致化与无量纲化方法对综合评价结果的影响,并对有效性进行测度;④张卫华、赵铭军找到了一种“合理排序”来进行无量纲化方法的优选;⑤俞立平、潘云涛、武夷山根据选择标准化方法的三大原则筛选出一种正项指标标准化方法,并提出一种负项指标标准化方法;⑥郭亚军、易平涛构建了一种复合无量纲化方法――“极标复合法”;⑦贾明辉、华志强提出了一种新的无量纲化方法――初始化法,并讨论了这种方法的优势.

本文研究陈军才文献中的同趋势化方法对主成分和因子分析的影响,欲对另外两种适度指标(居中型和区间型)进行论证和例证,考察这两种数据处理方法对综合评价结果的影响.另外,本文用贾明辉文献中“初始化”思想对极差法进行分析,考察极差法的性质.

1两种同趋势化方法对主成分和因子分析的影响

这里的同趋势化方法均取自韩中庚文献中的方法,探求使用此方法处理后的数据间发生的变化.

1.1将居中型化为极大型

其中,、分别为的极大值和极小值.

命题:通过这种变换后,数据间正负相关关系的变化不确定.

证明:不妨设为其他指标,为居中型指标.

样本相关系数等于.

设等于0,因为>0,>0,当等于0时,等于.

只需证与是否同号.即原来负相关的关系,可能变为正相关,也可能负相关,也可能变换前后关系不确定.

∵等于()

∴简化为只需证与()是否同号.

若变换前后关系不定,只要举例求证<0时,判断?()(DepartmentofMathematicalsciences,XinjiangNormalUniversity,Urumqi,Xinjiang830054)与0的大小关系即可.

例证:样本数据为{(-1,1),(-2,2),(-3,3),(6,1)}时:

等于-8<0,?()=-8<0,两者相等;

样本数据为{(-1,1),(-2,2),(-3,3),(5,1)}时:

等于-9<0,?()=-8<0,两者同号;

样本数据为{(-1,0),(8,0),(2,-1)}时:

等于-2<0,?()=7<0,两者异号.

这里只验证第一部分,同理可证第二部分.运用这种居中型向极大型的变换方法,变换前后正负相关关系不确定.

有关数据预处理的参考属性评定
有关论文范文主题研究: 关于方法的论文范文集 大学生适用: 自考毕业论文、学士学位论文
相关参考文献下载数量: 81 写作解决问题: 写作资料
毕业论文开题报告: 论文任务书、论文选题 职称论文适用: 期刊发表、职称评初级
所属大学生专业类别: 写作资料 论文题目推荐度: 经典题目

命题成立.

1.2将区间型化为极大型

对于区间型指标[,],

其中等于{,},、分别为的极大值和极小值.

命题:运用这种区间型向极大型的变换方法,变换前后正负相关关系不确定.

证明:这里只验证第一部分,不妨设>.

这样只需证与()是否同号即可.

∵()等于

只需证与()是否同号.

故同理,可以例证说明<0时,?()可能大于0,也可能小于0,即说明了经过此方法的变换后,居中指标与其他指标之间的正负相关关系仍不确定.命题成立.

综上,得到以下结论:经过对上述两种适度指标的分析:(1)这两种极大型变换会将原指标均变为非负数;(2)这两种极大型变换对极大型指标与其他指标之间的相关关系的改变不能确定.

2极差法的优良性质

设变换前第个评价对象第个指标为(等于1,2,等,;等于1,2,等,),各指标的相关系数为,极差变换后第个评价对象第个指标为(等于1,2,等,;等于1,2,等,),利用“极差化”方法来消除量纲后,各指标的相关系数为,令等于{,,等,},等于{,,等,},有等于,[0,1].

记()的协方差矩阵为等于.

∵等于()(),

等于等于等于[()]等于,

类似地等于,

,

其中为原始数据()的协方差.

特别的,当等于时,等于.

因此,使用“极差化”方法来消除量纲得到的新数据的协方差矩阵主对角元素反映出了各指标变异程度的差异信息.

然后有:.

这就证明了“极差化方法”的处理不改变各指标间的相关系数,保留了原始数据间的差异.

所以,“极差化”处理后数据的协方差矩阵不仅消除了指标量纲和数量级的影响,还能包含原始数据的全部信息.因此“初始化”“极差化”在数据标准化中是非常合理的方法.

3小结

对数据进行处理时,采用不同的方法会直接影响综合评价结果与排序的准确性.本文就两种同趋势化方法对综合评价方法的影响,以及极差法这种无量纲化方法的一些优良性质进行探讨,发现这两种同趋势化方法对综合评价方法的影响是不确定的,而“极差化”也同样具有“初始化方法”的优势,即处理后数据的协方差矩阵不仅消除了指标量纲和数量级的影响,还能包含原始数据的全部信息.关于文中同趋势化方法对评价影响的不确定性,必须说明的是其中的例子只是为了求证变换前后相关关系的不确定性、以及对最终评价结果的影响.这种不确定往往与样本数据有关.

但是值得一提的是,综合评价是评价者的主观行为,在每一个环节上都体现着评价者主观的意志和导向,所以在实际问题中需要评价者根据具体情况选择数据处理方法,处理方法应尽可能地简洁并具有可操作性.总之,评价者应遵循综合评价的理论研究始终为综合评价的实践活动怎么写作的原则.

基金项目:2013-2014年度新疆师范大学研究生科技创新项目《运用统计方法实现S-P法的改进》.

注释

①贾明辉,华志强.主成分分析数据处理方法探讨[J].2008.7.23(4):379-381.

②韩中庚.数学建模方法及其应用(第二版)[M].北京:高等教育出版社,2009(7).

③陈军才.主成分和因子分析中指标同趋势化方法探讨[J].统计与信息论坛,2005.3.20(2):19-23.

④张立军,袁能文.线性综合评价模型中指标标准化方法的比较与选择[J].统计与信息论坛,2010.8.25(8):10-15.

⑤张卫华,赵铭军.指标无量纲化方法对综合评价结果可靠性的影响及其实证分析[J].统计与信息论坛,2005.5.20(3):33-36.


⑥俞立平,潘云涛.武夷山学术期刊综合评价数据标准化方法研究[J].图书情报工作,2009.6.53(53):136-139.

⑦郭亚军,易平涛.线性无量纲化方法的性质分析[J].统计研究,2008.2.25(2):93-100.