计量分析讲义
洪永泰
壹,资料的性质和资料分析
一、统计分析的两大领域
二、资料的性质
(一)依取得方式分
资料性质特征推论效度例子观察性资料顺其自然(不改变自然世界)相关分析民意调查,田野调查实验性资料操纵自然(改变自然世界)因果分析广告效果测试,新药测试
1.资料的性质会影响推论效度,如果观察性资料之间存有时间先后的关系,经常会被用来当作推论因果关系的依据,但仍有争议.
例:社会流动—父母的社经地位vs.子女的社经地位
社会学者认为两者之间有因果关系,但统计学者则认为只有相关关系,因为资料并不是实验性资料.
例:抽烟与癌症的关系只能说是有相关关系,不能说是有因果关系,除非进行实验.
经过一些辩论之后,暂时有一些共识:
以观察性资料要推论因果关系至少要具备以下三个条件:
(1)变量之间有明确的先后关系,如父母的社会经济地位在前,子女的在后.
(2)发生在前的变量对发生在后的变量解释变异量很高.
(3)没有其他的解释变量.
2.社会科学的资料大部分都是属于观察性的,较难从事控制性,实验性的研究,因为可能牵涉到的问题.
3.生物医学研究中有运用入选机率调整法(propensityscoresadjustment,PSA)将观察性资料应用到因果关系的推论,不过条件是必须有另外一组可靠的实验组资料.这个方法的原理是在将两组资料混合之后,利用模式分析可预测某些观察个案是否包含于实验组的机率值(propensityscores,PS),此机率值以配对,平均或其他方法分为多个分群,每一分群均分别包含了一定数目的实验组与控制组个案,透过比较实验组与控制组在每一分群之权重的调整对实验效果进行推估(Cochran,1968,RosenbaumandRubin,1983,RosenbaumandRubin,1984,Rosenbaum,2005).
(二)依搜集范围分
1.普查资料(母体资料)—所得到的资料是母体参数值(populationparameters),可直接进行描述分析,不需做检测设检定,也不需要统计推估,例如投开票所资料,人口普查资料,银行客户交易纪录.
2.抽样资料(样本资料)—所得到的资料是样本统计值(samplestatistics),统计推估有理论上的限制,例如社会调查.
(三)依衡量方式分
1.类别资料(categoricaldata)—分类,计质,间断性,依资料性质再决定展示工具.
(1)名义尺度(nominaldata)—纯分类,无大小和强弱之区分,例如性别,地区.
(2)等第尺度(ordinaldata)—有大小和强弱之分,但无确定的「量」,例如名次排序,教育程度,满意度测量,Likert量表等.
2.数字资料(quantitativedata)—计量,连续性,内涵的信息和解释力较高.
(1)区间尺度(intervaldata)—"0"没有定义,无共同的计量基础点,例如温度80度并非是40度的2倍,智商为0不表示没有智商.现实世界中,此类资料并不多.
(2)比率尺度(ratiodata)—"0"有明确定义,表示「没有」的意思,可进行数学四则运算,例如分数,身高,体重.
由于等第尺度的各个衡量刻度通常都用1,2,3,4,5等数据来表示,许多使用者直接将这些数据当作比率尺度的数字运算,造成误用统计分析的后果.典型的例子如满意度的分析,如果题目选项是1非常不满意,2不满意,3普通,4满意,5非常满意,正确的处理方法应该是视为类别资料,如果是单一变量描述则列出各个选项的百分比,如果是探讨和别的选项的关系则使用交叉列表.比较常见的处理是将选项合并成为正面意见,中间意见,负面意见三大类,或者是转换成另一个变数,例如正面与非正面,或是负面与非负面,都是二分类,这样做比较方便后续与其他变量关系的探讨.
满意度调查的问卷设计现在比较流行先问正负面态度再续问强弱度的作法.这样做的好处是将中间意见的反应人数尽可能压缩,通常也可以得到很好的效果.资料分析时直接以类别资料处理,通常只有正面和负面两类加上少数无反应,不会有误用为数字资料的困扰.
满意度的资料分析通常是单题处理,每一个题目都可以单独做分析.如果要加总好几个题目时要特别小心,正确的作法应该是计算同一个受访者在m个题目之中有几题回答正面意见,而不是m题去加总12345的答案,这样做会扭曲选项代码的意义.
等第资料的另一个常见的典型是Likert量表.这个量表是加总量表,因发明者而得名.Likert量表主要是用题组来测量抽象概念,每一题都是一个叙述,请受访者针对这个叙述回答同意的程度,从很低到很高,通常是3到7个刻度.量表不会是单题存在,一定是题组的形式.早期Likert的设计是将受访者对题组内所有题目的回答刻度加总,所以称之为加总量表.然后用这个加总得分来表示受访者在这个概念的状态指标.后来因子分析(factoranalysis)盛行之后也证实了受访者的因子得点(factorscore)和这个加总分数意义相当接近.这也使得这个量表的效度和信度更加稳固,使用了快要一百年了还历久不衰.
贰,描述性统计:资料的描述与比较
一、资料的描述:符合科学精神的资料搜集,整理,与展示
类别资料数字资料描述方式图表次数分配表(Frequency)
饼状图(piechart)
条状图(barchart)
地图(map)直方图(histogram)
次数分布曲线(curve)
累积百分比(次数)分布曲线
箱形图(box-plot)
枝干法(stem-and-leafdisplay)资料中心趋势
众数(mode)
离散趋势
IQV
中心趋势
平均数(mean)
中位数(median)
众数(mode),无太大意义
位置
百分位(percentile)
离散趋势
全距(range)
四分距(inter-quartile)
标准差(standarddeviation)
方差(variance)
离差系数(coefficientofvariation,CV)
(一)图表
1.饼状图(piechart)
2.条状图(barchart)
3.直方图(histogram)
4.次数分布曲线(curve):可重迭比较
5.累积百分比分布曲线(cumulativedistributioncurve):是解释威力强大的图,将许多资料浓缩在一个图之中
例:
100%ABA:90%的所的得票数在
90%600票以下
B:10%的所的得票数在
1000票以下
10%
6001000得票数
例:
累积得票数
100%ABA:累积50%村里的累积得票数占全部得
票数的50%,显示各村里的得票平均
50%B:累积50%村里的累积得票数在占全部
得票数的10%,显示该候选人有地盘
10%
50%100%累积村里数
6.箱形图(box-plot)—其优点为可以看出资料的离散程度,亦可以作百分位,中位数,极端值的比较.
max
75%
50%
25%
min
7.枝干法(stem-and-leafdisplay)—或译茎叶法,哈佛教授JohnTukey所发明.较适用在资料笔数较少的手工处理上.
例:有一系列资料93,87,75,84,64,54,91,84,76,82,81,78,88,67,57,84,77,54,62,79,86,63.
试绘其枝干图.
931
874421846
756879
64723
5474
(二)中心趋势
1.平均数
(1)母体资料
N是母体个案数
(2)样本资料
n是样本个案数
2.中位数:一群资料中,排名第(N+1)/2位置的数,即有一半的资料大于此数,而一半的资料小于此数.
(1)此一定义模糊,需视资料个案数为奇数或偶数,且需视其平手的情形是否严重,故有多种不同的计算方法.较常见的解决方法是计算第(N+1)/2位的数(母体资料)或第(n+1)/2位的数(样本资料),如有平手的情形,则依平均rank处理.
(2)中位数隐含位置的意思,是一群资料的真正中心点,较能反映出资料的真实结构,可以抗拒极端值的影响,适合应用在资料的比较上,而平均数不一定是资料的中心点,通常只能反映出资料的总量.
例:8,12,21,25,31,39,45
∵n等于7,第(n+1)/2位等于(7+1)/2等于4
∴Md等于25
例:8,12,21,25,31,39,45,46
∵n等于8,第(n+1)/2位等于(8+1)/2等于4.5
第4位等于25,第5位等于31
∴Md等于(25+31)/2等于28
例:8,12,12,12,31,39,45
∵n等于7,第(n+1)/2位等于4
1/2×(31-12)等于9.5
12+9.5等于21.5
∴Md等于21.5
例:8,12,12,12,31,39,45,46
∵n等于8,第(n+1)/2位等于4.5
3/4×(31-12)等于57/4等于14.25
∴Md等于12+14.25等于26.25
例:工资的分布通常是不对称分配,如果用平均数表示,则容易产生误导,应该用中位数表示较客观,因有一半人的工资会大于中位数,一半人的工资会小于中位数.年龄或纳税的统计亦同.
3.众数:出现次数最多的数,有时不只一个,同时存在多个.有时一点用处都没有,不具任何意义,通常只有在类别资料时才有用.
4.百分位:须先将资料由小到大(或由大到小)排列,在资料中的相对位置为「第p(n+1)位」的数即为第p百分位的数.会因个案数为奇数或偶数,平手情形的出现,而有不同的计算公式,计算亦较为麻烦.
例:有一串资料为8,12,21,25,31,39,45,求第40百分位.
n等于7,p等于0.4,第40百分位等于0.4×(7+1)等于3.2
X(3)等于21,X(4)等于25
0.2×(25-21)等于0.8
第40百分位等于21+0.8等于21.8
例:有一串资料为8,14,16,24,27,35,46,53,65,70,72,78,
求第80百分位和第50百分位.
n等于12,p等于0.8,p(n+1)等于0.8×(12+1)等于10.4
第80百分位即第10.4位的数
X(10)等于70,X(11)等于72
0.4×(72-70)等于0.8
第80百分位等于70+0.8等于70.8
同理,第50百分位即第6.5位的数
X(6)等于35,X(7)等于46
第50百分位等于35+0.5×(46-35)等于40.5
例:有一串资料为12,15,17,17,19,20,25,30,30,30,35,38,42,45,48,
求第20百分位.
n等于15,p等于0.2
因有平手,故X(1)等于12,X(2)等于15,X(3.5)等于17,X(3.5)等于17,X(5)等于19,余此类推
p(n+1)等于0.2×(15+1)等于3.2
第20百分位即3.2位的数
X(2)等于15,X(3.5)等于17
[(3.2-2)/(3.5-2)]×(17-15)等于1.6
第20百分位等于15.1.6等于16.6
(三)离散程度—一般而言,资料愈集中,愈不具有分析价值,因当其被做为被解释项时,找不到可以产生引起重大变化的变量,因为结果都差不多,当其被做为解释项时,由于差异不大,很难分辨出与被解释变量的关系.
1.全距(Range):R等于max-min等于X(N)-X(1).实务上常用「次大-次小」,即「X(N-1)-X(2)」,以避免受到极端值的影响.且若资料正常的话,最大和次大的差距不会太大,最小和次小的差距也不会太大.
2.四分距(Inter-quartile)等于75百分位数-25百分位数.在资料的比较上,比标准差好用.
例:教学效果的比较
甲班乙班
乙班的四分距小于甲班,显示教
学效果较好,因中间百分之五十学生的高低差距较小.
3.均差,方差及标准差:
(1)平均差距(meandeviation)—是最真实的平均距离,可惜并未受到重视.
(2)方差(variance)
(母体资料)
(样本资料)
※样本资料是除以(n-1),而不是n的原因,是为了估计的缘故,若是除以n,则不会是无偏估计,故必须做理论上的修正,即除以n-1.
※E(s2)是σ2的无偏估计,但E(s)不是σ的无偏估计.
(3)标准差
(母体资料)
(样本资料)
4.标准化:Xi在平均数以上(或以下)几个标准差的位置.
标准值(母体资料)
标准值(样本资料)
(1)柴式不等式(Tchabyshev'sinequality):任何资料以平均数为中心,左右k个标准差,包含了至少(1-1/k2)的个案数(k>,1).
例.
3sd2sd1sdμ1sd2sd3sd
若k等于2,则1-1/22等于3/4,所以至少包含了75%个案数,
若k等于3,则1-1/32等于8/9,所以至少包含了89%个案数,
若k等于4,则1-1/42等于15/16,所以至少包含了93%个案数.
※在一群资料中,粗糙而快速的估计方法为
,若资料不是正态分布,则可考虑用来估计,用较大的标准差来估计较为保险.
(2)标准化
Zi等于0,表示Xi落在平均数,
Zi>,0,表示Xi落在平均数上方,
Zi<,0,表示Xi落在平均数下方,
Zi>,3orZi<,3,Xi通常为极端值,
Zi在大部分的情况下很难超过4个标准差,因15/16包含了绝大部分的个案数.
(3)正态分布:资料排序后的次数分布呈钟形且左右对称,其高矮胖瘦则取决于标准差的大小.其概率分布公式为
正态分布的特性:以平均数为中心,左右1个标准差包含了68%的个案数,左右2个标准差包含了95%的个案数,左右3个标准差包含了99.7%的个案数.
正态分布的简写:
标准化正态分布的简写:
5.变异系数/离差系数(coefficientofvariation,CV)—标准差和平均数的对比.例如比较同一企业在不同国家的薪资结构是否有差异,因为各国的货币单位不同,不能直接比较平均数或标准差,可用离差系数.
c.v等于(母体资料)
c.v等于(样本资料)
c.v愈大表示愈不稳定,愈小表示愈稳定,但c.v会受到平均数大小的影响,可能扭曲资料,且若如果平均数非常小的话,c.v会非常大,无太大意义.
6.类别资料的离散程度
(1)IQV(IndexofQualitativeVariation)—IQV愈大,表示离散程度愈大.IQV等于1时最分散,IQV等于0时最集中.各组的分类数不同时亦可以比较,但其缺点是不够敏感.
ex:试计算下列资料的IQV.
AB抽烟1014不抽烟20263040
sol:甲.计算不同件数
A:10×20等于200(每个抽烟者有20个人和他不一样)
B:14×26等于364
乙.可能的最大不同件数等于n2(L-1)/2L
L为分组数,n是个案总数
A:30×30×(2-1)/(2×2)等于900/4等于225
B:40×40×(2-1)/(2×2)等于1600/4等于400
丙.IQV等于甲/乙
A:IQV等于200/225等于0.89
B:IQV等于364/400等于0.91
∴B组的离散程度较大
ex:A法案和B法案中的表决结果如下,哪一个的共识程度较高
AB赞成3018反对10124030
sol:甲.计算不同件数
A:30×10等于300
B:18×12等于216
乙.可能的最大不同件数等于n2(L-1)/2L
L为分组数,n是个案总数
A:40×40×(2-1)/(2×2)等于1600/4等于400
B:30×30×(2-1)/(2×2)等于900/4等于225
丙.IQV等于甲/乙
A:IQV等于300/400等于0.75
B:IQV等于216/225等于0.96
∴A法案的离散程度较小,即共识程度较高
ex:试比较北,中,南地区民众对A,B政策的接受程度
AB北部108中部510南部15123030sol:甲.计算不同件数
A:10×(5+15)+5×15等于200+75等于275
B:8×(10+12)+10×12等于176+120等于296
乙.可能的最大不同件数等于n2(L-1)/2L
A:30×30×(3-1)/(2×3)等于(900×2)/6等于300
B:30×30×(3-1)/(2×3)等于(900×2)/6等于300
丙.IQV等于甲/乙
A:IQV等于275/300
B:IQV等于296/300
∴B组的离散程度较大
(2)政治学者DouglasRae提出政党竞争程度的测量方法,此测量方法的缺点是不够敏感.
公式:Pi:i党的得票率
ex:
甲国乙国丙国A党得票率50%60%50%B党得票率50%40%30%C党得票率----20%100%100%100%sol:甲国:
乙国
丙国
※政党体制的指标:.N为1时趋近制,N为2时趋近二党制,N大于2时趋近制.
资料的比较(一)总量
(二)平均数
(三)百分比(proportion)
抽样调查百分比的比较方式:
1.不同的调查
ex:去年1月调查抽烟的比例,去年7月调查抽烟的比例,比较和
若含0,表示二次的调查没有差异,若不含0,表示有差异.
2.同一次调查,同一题问题,不同选项的比较
ex:(1)比较电视台的收视率,
(2)比较议题立场的差异.
若含0,表示没有差异,若不含0,表示有差异.
3.同一次调查,不同问题的比较
ex:比较连战的亲和力(%)和宋楚瑜的亲和力(%)
连战有亲和力连战无亲和力宋楚瑜有亲和力宋楚瑜无亲和力令的第一个1表示前一题回答yes,第二个1表示后一题回答yes,则
前一题回答yes的百分比,
后一题回答yes的百分比,
若含0,表示没有差异,若不含0,表示有差异.
Scott,A.J.andSeber,G.A.F.1983.Differenceofproportionromthesamesurvey.AmericanStatistician37:319-320.
Wild,C.J.andSeber,G.A.F.1993.Comparingtwoproportionromthesamesurvey.AmericanStatistician47:178-181(correction48:269).
Wild,C.J.andSeber,G.A.F.2000.Chanceencounters:afirstcourseindataanalysisandinference.NewYork:JohnWiley.Ch.8.5.2.
(四)百分位,四分距
(五)成长率—是很容易的比较方式,因其受到比较的基期所严重影响.
(六)标准化—去除计算单位,简化资料成为相对位置.
1.转换成标准值,或称Z化.
可以直接使用Z值,或再将Z值转换成为一般人容易了解的数值.
有关论文范文主题研究: | 关于资料的论文范文集 | 大学生适用: | 在职论文、学院学士论文 |
---|---|---|---|
相关参考文献下载数量: | 93 | 写作解决问题: | 学术论文怎么写 |
毕业论文开题报告: | 论文提纲、论文题目 | 职称论文适用: | 核心期刊、中级职称 |
所属大学生专业类别: | 学术论文怎么写 | 论文题目推荐度: | 优秀选题 |
检测设新设定的平均数是60,设定的标准差是10,则:
如果是正向,Yi等于60+Zi*10,
如果是负向,Yi等于60-Zi*10.
2.内插法(interpolation)转换
先设定转换过的极大值和极小值,例如90到30,差距是60.
计算观察值之中极大值和极小值的差距,然后换算这个差距相当于60个单位,每个单位的数值是多少.
如果是正向,则Yi等于30+(Xi-Xmin)*(90-30)/(Xmax-Xmin),
如果是负向,则Yi等于90-(Xi-Xmin)*(90-30)/(Xmax-Xmin),
Z化是把原始数据转换成为「每个观察值在平均数以上或以下几个标准差的位置」,
受到极端值,平均数及标准差数值的影响,比较容易失真.好处是可以猜测每笔数据的百分位.
内插法转换是在新设定的数据范围内将原始资料等比例缩小或放大,完全保持原始资料的信息,只是去除单位而已,不会失真,也不引起争议.
标准化例1:正向
行政区平均每人警政支出,正向,越大越好原始资料Z化60+Z*1060+Z*1530-90内插新北市2659.88-1.191848.142.130.0台北市4697.050.859968.672.960.7台中市3445.01-0.401156.054.041.8台南市3208.12-0.639753.650.438.3高雄市3750.52-0.093459.158.646.4宜兰县3891.560.048760.560.748.6桃园县2688.06-1.163448.442.630.4新竹县2994.67-0.854651.547.235.0苗栗县3720.09-0.124058.858.146.0彰化县3135.13-0.713252.949.337.2南投县4145.180.304163.064.652.4云林县3243.22-0.604354.050.938.8嘉义县3674.01-0.170558.357.445.3屏东县3270.3-0.577054.251.339.2台东县6637.962.814688.2102.290.0花莲县5434.291.602376.084.071.8基隆市4643.250.805768.172.159.9新竹市3309.15-0.537954.651.939.8嘉义市4474.350.635666.469.557.4
标准化例2:负向
行政区犯罪率(刑案发生率),负向,越小越好原始资料Z化60-Z*1060-Z*1530-90内插新北市1377.890.420255.853.756.6台北市1539.441.144448.642.843.3台中市1048.98-1.054370.575.883.7台南市1362.970.353356.554.757.8高雄市1308.260.108058.958.462.3宜兰县1255.98-0.126461.361.966.6桃园县997.89-1.283472.879.387.9新竹县1265.84-0.082260.861.265.8苗栗县1004.31-1.254672.578.887.4彰化县972.23-1.398474.081.090.0南投县1277.4-0.030360.360.564.9云林县1018.34-1.191771.977.986.2嘉义县1084.15-0.896769.073.480.8屏东县1168.28-0.519565.267.873.9台东县1501.750.975450.245.446.4花莲县1700.831.867941.332.030.0基隆市1502.260.977750.245.346.4新竹市1436.580.683353.249.851.8嘉义市1575.751.307246.940.440.3
(七)交叉标准化
1.二组资料互相交叉标准化所得到的结论可能会不一致,较佳的方法是以某一组真实或虚拟的资料为准,进行统一标准化.
ex:
甲厂乙厂规格产量不良件%规格产量不良件%A1000505%A600015025%B2000603%B1000404%C5000501%C2000201%D2000402%D1000303%总计100002002%总计100002402.4%sol:
标准化以乙厂(规格,产量)为准,标准化以甲厂(规格,产量为准,
甲厂不良件应有数乙厂不良件应有数
A6000×5%等于300A1000×2.5%等于25B1000×3%等于30B2000×4%等于80C2000×1%等于20C5000×1%等于50D1000×2%等于20D2000×3%等于60总计10000370总计10000215甲厂之不良率为3.7%,乙厂之不良率为2.15%
乙厂之不良率为2.4%甲厂之不良率为2%
∴乙厂优于甲厂∴甲厂优于乙厂
ex.下表是两家大学各学院教师发表论文的资料,以D栏为标准重新计算各校平均每位教师发表的论文篇数.
学院D标准
人口A校B校教师数出版数平均标准化教师数出版数平均标准化文学30080600.752252003001.5450理学4004001200312001002402.4960工学50040015003.7518751003603.61800社会科学3001001501.54504007001.75525管理学200801001.2525040010002.5500生命科学3002407203900501202.4720合计2000130037302.8694900
/2000
等于2.45125027202.1764955
/2000
等于2.4775
2.辛普森吊诡(Simpson'sparadox):A在所有单项均优于B,但总项却比B差.其原因在于A和B的结构不同,各单项所占的比重不一样所致,其解决方法亦为统一标准化.
ex:某杂志续订情形分析
现有订户分类北区南区户数续订者%户数续订者%赠阅35929181%887080%旧有订户1836144879%51439076%广告29817860%22211351%人员促销208643421%861214%其他1417%400%总计4593235251%91458564%
※吊诡的关键在于北区的人员促销占所有户数的一半左右,但续订比例非常低,拉低了整体的续订率,而南区的人员促销仅占所有户数的不到十分之一,续订率低的影响不大,主要是以旧有订户为大宗,而其续订率较高,故拉高了整体的续订率.
(八)Thurstone两两相比:若有n个人,则需比次.此一方法可用在考绩方面,不允许有平手的情况.
ex:摘自黄荣村(1978)「量度化方法」收录于杨国枢等编,社会及行为科学研究法,页354-403,东华书局,台北市.
表1比较判断实验所得之次数表(F矩阵)
叙述句12345671476575807586882294751546268813194347495960634144045474963675193235454751556825343143475776133127393747
表2比较判断实验的相对次数表(P矩阵)
叙叙句12345671.500.691.798.851.798.915.9362.309.500.543.574.660.723.8623.202.457.500.521.628.638.6704.149.426.479.500.521.670.7135.202.340.372.479.500.543.5856.085.277.362.330.457.500.6067.064.188.330.287.451.394.500
表3比较实验的标准分数表(Z矩阵)
叙述句12345671.000.499.8341.041.8341.3721.5222-.499.000.108.187.412.5921.0893-.834-.108.000.053.327353.4404-1.041-.187-.053.000.053.440.5625-.834-.412-.327-.053.000.108.2156-1.372-.592-.353-.440-.108.000.2697-1.522-1.089-.440-.562-.215-.269.000累积值-6.102-1.889-.231.2261.3032.5964.097
例:传播媒体的广告效果比较
男女全体
10.92电视
10.20电视
9.88电视
7.40报纸7.24报纸
7.16报纸
6.12报纸夹报5.88报纸夹报
4.92报纸夹报
3.96电影
4.68户外招牌4.28电影
3.80户外招牌
8.80电影8.64户外招牌
8.32杂志3.03杂志
2.44杂志
1.16广播0.92广播
0.20广播
图1利用比较判断法求得的七种广告媒体量表值
在进入推论性统计之前,让我们先浏览一下常用的推论性统计的分析工具.
(一)推论性统计的分析工具
单一Y多个Y类别数字全部数字单
一
X类别交叉列表
相关强度
余值分析
loglinearmodel(无依变数)
logitmodel(有依变数)单因子方差分析
(ONE-WAYANOVA)
Kruskal-Wallis单因子等级方差分析
中位数检定多变量方差分析
(MANOVA)数字logisticmodel
(Y为二分类)相关分析
回归分析多
个
X全部类别loglinearmodel
logitmodel多因子方差分析全部数字logisticmodel
区辨函数分析
(discriminant
function)
复回归分析多变量回归分析(multipleregressionanalysis)
因子分析(factoranalysis)
典型相关分析(canonical
correlation)
集群分析(clusteranalysis)
区辨函数分析(discriminantfunction)
多元尺度(multi-dimensionalscaling)混合logisticmodel
数字较多-虚拟变量回归
(dummyvariableregression)
类别较多-共变量分析
(analysisofcovariance)虚拟变数复回归
共变量分析
1.Loglinearmodel和logitmodel的差别在于,前者将所有变量投入,无自变量或依变量之分,后者则是以其中的一个变量当成依变量.
2.多因子方差分析包含TWO-WAYANOVA,THREE-WAYANOVA,MULTIPLE-CLASSIFICATIONANALYSIS(MCA)等.
3.虚拟变项回归是用在大部分的X是数字资料的分析上,共变量分析则是用在大部分的X是类别资料的分析上,实际上是ANOVA,只是加入那些数字资料的共变量.
(二)时间序列分析
1.依靠单一变量—用资料本身预测未来,例如人口预测.
2.依靠辅助变量—准确性较高,但较为复杂,因其必须同时分析辅助变量,例如预测汽车工业的未来发展,必须借用人口资料,GNP资料,经济成长趋势资料等.
3.时间序列分析在经济学中较常用,在政治学中较少见,因观察点较少,较难画出趋势图.
4.如果资料是随机性的,便不能使用时间序列分析,无法预测未来.例如乐透彩券虽有时间序列资料,但因其是随机的,无法看出未来的趋势.
(三)实验设计
以ANOVA为基础,设计不同的实验组别,来求得自变量与依变量间的因果关系.
23
抽样(概率)
样本资料
母体资料
推论性统计
描述性统计