时间序列自回归(AR)模型在体育预测中的应用

点赞:4966 浏览:12941 近期更新时间:2024-04-01 作者:网友分享原创网站原创

摘 要:文中初步探讨了时间序列自回归AR(AutoRegressive)模型在体育中的应用,着重从理论的角度讨论了其可行性,然后通过实例分析进一步证实了在体育中应用时间序列分析的优越性.文中分析表明,AR模型可用于体育统计中趋势的预测、体质或体育系统状态的评价,以及体育环境的预测等多方面.

关 键 词:时间序列,体育统计,趋势预测

中图分类号:G804.49

文献标识码:A

文章编号:1007-3612(2010)02-0086-03

TheApplicationofTimeSeriesAutoRegressive(AR)ModelinSportsForecast

ZHANGXiaolong

(ChinaUniversityofPetrolum,Beijing102249,China)

Abstract:ThepaperdiscussestheapplicationofthetimeseriesAR(AutoRegressive)modelinsports.Itfocusesoniteasibilityfromthetheoreticalperspectiveandthenprovestheadvantagesoftheapplicationinsportsbycasestudies.ItshowsthatARmodelisapplicableintheforecastsofthetrendsinsports

时间序列自回归(AR)模型在体育预测中的应用参考属性评定
有关论文范文主题研究: 关于体育学院的论文范文检索 大学生适用: 函授论文、大学毕业论文
相关参考文献下载数量: 35 写作解决问题: 怎么写
毕业论文开题报告: 论文任务书、论文前言 职称论文适用: 期刊目录、职称评副高
所属大学生专业类别: 怎么写 论文题目推荐度: 免费选题

statistics,theevaluationofphysicalconditionsandthestateofthesportsystemandthepredictionofsportenvironment.

Keywords:timeseries,sportsstatistics,trendforecast

随着体育事业的科学化,体育领域中的统计与预测作为一种重要的体育现象和规律的定量分析方法必将越来越受到人们的重视,人们对数字的精确程度要求也必将越来越高.从运动员的选材到大型赛事的对手运动员成绩预测,从大众的体质评价及运动处方设计到体育彩票未来某期发行量估计,这一切都有赖于对过去大量数据的统计,从统计数据中找出规律,制定标准.而目前的体育统计与分析方法在实际应用中都会碰到许多困难.本文尝试着应用工程中常用的时间序列分析方法进行体育统计的分析.详细论述了时间序列AR模型在体育统计中的应用与实现的问题.

1研究方法

1.1数理分析法

将体育的各种内外影响因素看作系统的随机输入,而统计数据(成绩或结果)看作系统的输出,运用时间序列基本原理,推导了AR模型的定阶方法及参数估计方法.

1.2案例分析法

将推导的方程应用于某已知成绩的马拉松运动员,以检验方程在预测运动员成绩中的有效性.

2时间序列的概念

时间序列分析是对一串随时间变化而又相互关联的动态数据(动态信号)进行分析、研究和处理的一种方法.而时间序列是依时间或空间顺序先后排列、各有大小的一列数据.这种有序和大小反映了数据内部的相互联系和变化规律,包含着产生这些数据的现象、过程或系统的有关特性和信息:第一,系统本身有关的固有特性,第二,相关的外界特性,第三,外界同系统的关系.研究、分析、处理动态数据,正是为了揭示数据本身的结构与规律,了解系统的特性,明确系统与外界的联系,推断数据与系统的未来情况.

参数建模就是在确定了描述信号、系统或过程的数学模型类型后,从已知的关于系统的信息中确定模型参数,最终建立一个具有针对性的应用模型.参数建模技术应用十分广泛,体育统计的本质就是利用数学模型中的数理统计模型去解决体育中的实际问题.本文将就时间序列建模方法探讨其在体育预测中的应用.

根据体育领域定量研究目的划分,可将体育统计方法的应用范围大致分为两块:1)描述和分析变量关系为目的的统计方法.该方法主要是对变量的分布特征进行描述以及根据变量之间的统计距离这一基本特征分析变量的依存、聚合关系.2)对总体参数进行预测的统计方法.该统计方法的目的是对总体参数进行预测,或是建立在推断基础上的分析、判断.然而,由于体育运动涉及到人体机能,而人体机能的复杂性,以及环境因素的多变性,传统的体育统计分析方法都是把人体或其他系统抽象为简单的物理模型,这样只能作一般规律分析,很难用于对实际情况的预测.这时,时间序列模型具有无可比拟的优势.

3体育统计数字的特征

在体育统计中,由于体育运动的复杂性和实际问题的多样性,体育统计的样本数据也是多种多样,综合起来主要有以下几个特点:

1)随机性,如果描述系统状态变量不能用确切的时间函

投稿日期:2009-10-12

作者简介:张小龙,副教授,硕士研究生,研究方向体育教学与训练.数来表述,无法确定状态变量在某瞬时的确切数值,其动态过程具有不可重复性和不可预知性的过程,称为随机过程.体育统计数据因其涉及到个体(或群体)的发挥、身体的状况、主观的影响、战术策略等内部因素的影响,社会环境、场地环境、人员变动等外部条件的影响,以及统计方法、技术手段等技术因素的影响.使得体育统计数据具有很大的随机性.

2)离散性,体育统计中,一般都采用周期采样的方法,即每隔一定的时间测取相关的数据,例如,某运动员某项身体机能的状态监测统计,某运动员在多次大型比赛中的成绩统计等.这些数据都是一些离散的时间序列,这为数据的时间序列分析带来很大的方便.

3)样本的有限性,体育的样本数据不可能是一个无限长序列,只能是一个有限长的数据点,这使得传统的体育统计和分析方法具有较大的绝断误差,预测精度不高.而时间序列分析方法的基本思想是认为时间序列是白噪声通过某个模型产生的,不必认为N个以外的数据为零,所以系统性较强,预测精度高.

4)时间序列性,体育统计中的数据一般都是随时间变化的序列,每一个数据都对应着一个时间点.这里的时间概念是一个广义的范畴,既可指一般意义上的时、分、秒等概念,也可指空间或频度上的概念.时间序列性使得体育统计分析中借助时间序列分析中较成熟的理论和方法变的可行.

5)精确性与不精确性,精确性是指在某些研究中,由于受某些硬性条件的影响(如实验设备、实验方法、排除主观影响的试验对象和试验者等)使得统计数据能够较真实的反映事实情况.不精确性相反,它主要是受实验方法的多样性,实验对象与实验者主观态度的影响所致.体育统计数据的精确性与不精确性对体育统计的分析影响较大.对于精确的数据我们可以对其进行直接分析,且分析精度高.对不精确的数据我们可以对其进行数据挖掘,借助信号处理的一般技术(如对数据进行去均值方法等),以提高分析的精度.

另外,体育统计数据还具有平稳性、独立性等特点.在此不再赘述.

综上所述,体育统计数据的一些特征,使它明显具有时间序列性,应用时间序列分析方法对其统计数据进行分析和预测是完全可行的.现利用时间序列自回归滑动平均模型,简称ARMA(AutoRegressiveandMovingAverage)模型进行必要的讨论.


4AR模型基本原理与方法

4.1AR模型的选择及定义对于平稳、正态、零均值的时间序列{Xi},可拟合ARMA模型为

Xi-∑pi等于1φiXt-i等于αt-∑piθjαt-j(1)

由于AR模型的估计得到的是线性方程,因此在计算上AR比ARMA模型有明显的特点.这里只介绍较简单的AR模型.

代入后移算子B,则式(1)可表示为

φ(B)Xt等于θ(B)αt或Xt等于θ(B)φ(B)αt(2)

其中:

φ(B)等于1-φ1B-φ2B2-等-φpBp,θ(B)等于1-θ1B-θ2B2-等-θqBq

在体育中,我们可以把某一个运动员或某个运动团体,乃至某个社会群体等看作是一个系统,把各种影响成绩或结果的内外因素看作系统的随机输入,而统计数据(成绩或结果)看作系统的输出.由此,我们就可借助一定的数学模型对统计对象进行某些分析.

4.2模型的定阶――AIC准则函数法AIC准则函数定义为:

AIC(n)等于1nσ∧2e+2n/N(3)

其中,n为模型的阶数,N为样本个数,σ∧2e为所拟合模型的残差方差.

由函数可知,当n增加时,函数中的σ∧2e是下降的,而第二项随n的增大而增大,这表明随着模型阶数的增加,残差对AIC函数的作用渐小,而阶数最终会起关键作用.这样就可在阶数和残差间获得最佳选择.即满足以下条件的n0为最佳的阶数.

AIC(n0)等于min(AIC(n))1nM(N)(4)

4.3模型的参数估计――最小二乘法模型参数估计选择最小二乘法.该方法的计算精度较高,但计算量较大.由AR模型定义可知,对于时间序列Xi有

Xi等于∑pi等于1φiXt-i+εt(5)

令t等于n+1,n+2,等N,即认为ε1等于ε2等于等等于εn等于0.当N>>n时,忽略前n个εi对整个残差平方和的影响很小.代入t可以得到N-n个方程,由这N-n个方程可得残差平方和q等于∑Nt等于n+1ε2t.采用最小二乘法即可求的当q最小时相应的参数φi(i等于1,2,等,p)的估计.

5时间序列AR模型在体育中的应用与实现

时间序列AR模型在体育中的应用可以表述为以下几个方面:

5.1对未来趋势的预测

由以上分析可知,对未来趋势的预测是体育统计的一个现实性应用问题,那么我们如何利用现有的统计数据对未来的趋势进行预测呢检测设有一统计样本{Xt},其中有t个元素,分别按时间序列记录为X1,X2,X3,等,Xt.由AR模型定义可知,

Xt等于∑pi等于1φiXt-i(6)

则对趋势的第k步预测值为:Xt+k等于∑pi等于1φiXt-i+k

由此可以看出,我们只需根据现有的体育统计数据,建立一个适合的AR模型,然后就可以用此模型对同一系统的趋势进行预测.

5.2考察体育系统的固有特性,进行体质或状态的评价

对式(2)进行Z变换可得系统的传递函数为:

H(z)等于θ(z)φ(z)(7)

我们可以把体育中的众多问题看作一个系统,而系统的传递函数中包含着系统的一些固有特性,我们可以利用时间序列模型对传递函数的估计考察系统的固有特性.通过对固有特性的研究,可以对个体运动员、某团队或机构进行考察,以及制定标准和评价.

5.3对外界环境进行预测式(1)中ARMA模型定义可变形为,


αt等于Xi-∑pi等于1φiXt-1+∑pjθjαt-j(8)

可进一步表述为:αt等于φ(B)θ(B)Xi,

或αt等于I(B)Xi,其中I(B)等于φ(B)θ-1(B)等于1-∑i等于1IiBi

其中I(B)为Green函数的逆函数,可由以下递推公式求出

Ii等于-φi-∑ij等于1θjIi-j,其中I0等于-1

这里的at为系统的随机输入,在体育中可以把它看为外界环境对参赛者(或其它系统)的影响.只要采取某种方法对模型进行估计,然后通过递推求出其它的随机输入,就可对环境进行预测.

6实例分析

时间序列在体育统计中的应用是多方面的,现就其在体育预测预报方面的应用进行实例分析.例如,日本马拉松运动员川上优子10000m分段成绩统计数据,根据其成绩分别求出各段(每段400m)平均速度,得到25组数据如下:

0.18520.18990.18990.18770.18500.1850

0.18490.18510.18490.18260.19000.1875

0.18760.18990.18760.18760.18990.1899

0.19000.19000.19000.18770.18490.1901

0.1709

由该组数据建立如下AR模型:

由AIC准则确定模型的阶数为:8,

由最小二乘法估计模型的自回归系数(i等于1,2,等,8)分别为:

-0.11090.27460.1158-0.2166-0.2246

-0.1034-0.0747-0.1273

残差方差为:1.3356×10-5

由此可建立模型:

Xt等于0.1109Xt-1-0.2746Xt-2+等+0.1273Xt-8

由此,我们可以设想所有的输出都是通过以上模型产生,则由该模型估计的第11~16段内的平均速度如表1所示.

表1日本马拉松运动员川上优子10000m分段平均速度实测与预测值对照

区间/km4.0~4.44.4~4.84.8~5.25.2~5.65.6~6.06.0~6.4测量值/m•,s-10.19000.18750.18760.18990.18760.1876估计值/m•,s-10.18720.18620.18860.18930.18770.1877误差-0.0028-0.0013-0.001-0.00060.00010.0001精度98.53%99.31%99.47%99.68%99.95%99.95%

由表1可以看出,基于AR模型对川上优子成绩的预测基本上与实测值相符,预测精度在99%左右,由此可见,时间序列分析法应用于体育统计的预测方面是有效的.

7结论

时间序列分析方法认为统计数据是白噪声通过某个模型产生的,不必认为样本以外的数据为零,使得统计数据具有外延性的特点.所以样本的系统性强,分析精度高.这就避免了传统的体育统计在方法上存在的较大截断误差.通过理论与实例分析可得出以下结论:

1)体育领域中,科学、可靠的定量预测分析方法对于解释竞技体育和大众体育现象的发展变化规律具有重要的意义.

2)文中分析表明,时间序列方法可用于体育统计中趋势的预测、体质和体育系统状态的评价,以及体育环境的预测等多方面.

3)与常规统计方法相比,时间序列分析法用于体育统计分析,使得统计样本数据具有外延性的特点,系统性较强,拟合精度较高,有广泛的应用前景.

4)实例分析表明,时间序列分析法在在体育统计与预测方面的应用是可行的,有效的,而且在要求较高而系统相对复杂的测量和预测中预测精度高,具有明显的优势.