政府统计数据质量可信度问题的实证

点赞:13946 浏览:59165 近期更新时间:2024-02-23 作者:网友分享原创网站原创

摘 要:奔福德定律被称为“第一位数分布规律”,它描述了数字1~9在数据首位出现的概率.分析了奔福德定律在政府统计数据质量的可信度问题中应用的可行性,在这个基础上,尝试利用此定律分析政府统计数据质量的可信度问题.

关 键 词 :政府统计数据;奔福德定律;数值分析

中图分类号:F0 文献标志码:A 文章编号:1673-291X(2012)12-0001-02

一、研究背景

国外学者对奔福德定律的研究非常广泛,取得了丰富的成果.国外学者发表关于奔福德定律的文章有很多,许多著名的学者如Pinkham、Raimi、Hill、Nigrini和Carslaw等对奔福德定律的研究都卓有成效.国内对奔福德定律的介绍和研究很少,实践上也没有得到广泛的应用.2005年,中国政法大学法务会计研究中心的张苏彤教授在中国会计学会2005年学术年会中发表的一篇文章,介绍了奔福德定律及其在审计中的应用.通过验证性测试,张苏彤教授发现中国上市公司公布的财务数据可以较好地符合奔福德定律.之后,相继有不少国内学者发表关于奔福德定律的文章,但大都是应用在审计领域,研究中国上市公司数据查重的问题.

近年来,政府统计数据质量的可信度问题是国家和社会广泛关注的热点,为了更好的满足社会各界对政府统计数据质量的需求,为了进一步提高政府统计数据质量的真实性、可靠性,有必要对政府统计数据质量的可信度问题进行系统深入的研究.


二、奔福德定律介绍

1.奔福德定律的经典理论.奔福德定律是由美国数学家、天文学家赛蒙·纽卡姆在1881年首次发现的.1938年美国通用电器的物理学家弗瑞克·奔福德收集并验证了总数为20 229个的20组数字,他发现在这些数字中,1在数字中第一位出现的概率大约为30%;2在数字中第一位出现的概率大约为17%;3在数字中第一位出现的概率大约为12%;而8和9在数字中第一位出现的概率约为5%和4%.这一规律因此也被人们称为“第一位数分布规律”.

1、2、3、4、5、6、7、8、9各数字在样本数据首位上出现的期望概率(如表1所示).

2.对奔福德定律检验结果的评价.奔福德定律的期望分布是一种对数分布,其标准差公式表示为:

Si等于[pi·(1-pi)/n]

其中,Si表示从1~9每个数字的标准差;pi表示奔福德定律的分布概率;n表示样本数据量;Z检验可以被用来分析数据是否超出可信赖水平,因此Z检验可以被用来检验数据的可信度.Z检验的公式可以表示如下:

Z等于

其中,p′i表示被测数据的实际分布概率;pi表示奔福德定律的分布概率;Si表示从1~9每个数字的标准差;n表示样本数据量.

根据上述公式计算出的Z值如果是1.96,表示显著性水平为0.025,即可信度为97.5%,如果计算出的Z值是1.64,表示显著性水平为0.05,则可信度为95%.

三、奔福德定律应用在统计数据质量可信度问题中的可行性分析

通过参阅大量文献,可以知道统计数据可以用奔福德定律进行分析.其中参考文献[7]中明确指出,会计、统计、税收、金融以及证券市场的各种数字可以很好地符合奔福德定律.统计数据呈自然状态分布时存在着特定的分布规律,这种分布规律和奔福德定律有着一定的联系.检测设真实的数据可以非常好地符合奔福德定律,那么如果有数据和奔福德定律相背离,就意味着存在数据失真的可能性.统计是一项技术性很强的工作,而计算机统计软件的使用为奔福德定律的应用创造了条件,使得应用奔福德定律分析问题耗时短,效率高,得出的结果具有一定的参考价值.这说明了,奔福德定律在政府统计数据质量的可信度分析中有一定的可行性.

四、奔福德定律验证性测试

1.奔福德定律测试结果及对结果的解释.选取2007年中国政府统计中的生产总值等40项社会经济总量指标,以31个省市为对象进行分析(即n等于1 240).指标变量的数据来源于《中国统计年鉴(2008)》.整个过程应用Excel软件,测试结果(如表2所示).

一般认为,当0.998

政府统计数据质量可信度问题的实证参考属性评定
有关论文范文主题研究: 关于定律的论文范文 大学生适用: 电大毕业论文、学校学生论文
相关参考文献下载数量: 55 写作解决问题: 怎么撰写
毕业论文开题报告: 论文模板、论文摘要 职称论文适用: 论文发表、高级职称
所属大学生专业类别: 怎么撰写 论文题目推荐度: 优秀选题

0.97

五、小结

当样本数据出现概率与奔福德定律的相关程度较高,但是分布存在差异时,首先应考虑样本量大小的影响.其次还要考虑是否存在数据失真,可能是由某些客观原因造成的数据异常.应该在剔除异常数据后重新测试,从而判断出异常数据的存在对测试结果是否有影响.如果检测结果符合奔福德定律的概率分布,并不意味着一定不存在数据失真,在大样本的情况下,统计人员还应该做分层测试,进而得到更准确的测试结果.

文章需要进一步改进之处:根据“样本数据越多,测试结果越有效”这一规律,加大被检测数据的样本量,使样本数据的分布随机性降到最低,使测试效果更加准确;进一步扩大选取的指标范围,增加样本数据的来源渠道,使得奔福德定律的应用更具广泛性;对选取的被检测数据进行分层次检验.本文所得出的结论仅限于对政府统计数据中的若干总量指标数据进行测试,至于其他指标数据是否也可以用奔福德定律进行可信度分析还需要进一步验证.