来源:中国统计
作者:田力法
假设检验贯穿整个统计学与计量经济学的教学过程,有必要对其中的一些规律性进行简要总结以利于学生的学习和掌握。统计学中客观事物平均水平的假设检验为双侧、左侧或右侧检验;统计学中客观事物离散水平的假设检验通常为右侧检验。计量经济学中系数的显著性检验通常为双侧检验;计量经济学中服从卡方分布、F分布的假设检验通常为右侧检验。
尽管假设检验无法使人们对客观事物实现百分之百的精准认知,但仍是目前科学家认识客观世界的最佳统计学工具。下面对其中的一些关键问题做一简要的规律性总结:假设检验存在的必要性是什么;假设检验为何有双侧、单侧之分;假设检验为何有0.1%、1% 和 5% 三种显著水平;客观事物平均水平、离散水平的假设检验如何设置双侧和单侧;计量经济学中 t分布、卡方分布与 F 分布如何设置假设检验的双侧和单侧。
如何认知假设检验
客观事物异质性的存在是假设检验存在的必要前提。客观事物如果不存在异质性,统计学与计量经济学整个学科也就没有存在的必要性,更不用说假设检验。正是客观事物(通常是同类客观事物)之间存在异质性,使得假设检验有必要存在,成为人们认知客观事物的强有力统计工具。
假设检验顾名思义包含两个关键步骤:第一,提出假设;第二,进行检验。提出假设的含义是指依据客观事物的惯常规律对其提出一个常态假检验设。如中国居民的家庭用电电压是 220伏。进行检验的含义是指在客观事物总体中进行抽样,通过计算样本统计量的值来判断客观事物总体是否符合人们的惯常认知。如在中国居民的家庭中进行抽样,计算的家庭用电电压样本统计量值若严重高于或低于 220伏,则说明居民供电电压出现了问题,电力局需要抢修。
如何分类假设检验
假设检验有双侧与单侧检验之分,客观事物常态变动性的边界决定着假设检验为双侧还是单侧。双侧或单侧的称呼是针对非“常态”的备择假设来讲的。当客观事物常态围绕某固定点呈现左右摆动时,非“常态”同时表现为左侧或右侧,假设检验称作双侧检验。当客观事物常态表现为某范围之内变动时,非“常态“表现为大于边界范围,假设检验称作右侧检验。当客观事物常态表现为某范围之外变动时,非“常态”表现为小于边界范围,假设检验称作左侧检验。因此,在对客观事物进行假设检验时,存在双侧、单侧检验之分,单侧检验又细分为左侧或右侧检验。
统计学中对于客观事物的平均水平而言,假设检验可能存在双侧、左侧以及右侧,即这三种假设检验的方式均可能被用到。对于居民用电的额定电压是 220 伏,高于此值或低于此值均不符合居民的用电标准,非“常态”设置为双侧检验形式较好。对于居民家用电器的寿命应至少大于或等于质保期,小于质保期就说明该家用电器不符合生产标准,非“常态”设置为左单侧检验形式较好。对于居民收入差距应在某合理的范围内变动,严重大于某范围时易发生民众不满和社会动荡,非“常态”设置为右单侧检验形式较好。大样本情形时假设抽样服从标准正态分布;小样本情形时假设抽样服从自由度为 n—1 的 t 分布。
统计学中对于客观事物的离散水平,惯常态一般在某范围之内变动较好,非“常态”即为右单侧形式的假设检验。如生产线上零件规格的离散性应在某范围之内变动、班级内学生学习成绩的离散型也应在某范围内变动,超出了可接受的离散范围均说明总体中的个体之间差异性过大,出现了产品质量或教学问题。调用的统计量为自由度为 n—1 的 x2(n —1) 分布。
计量经济学中进行假设检验常用的统计量有t(n—k—1) 检验、x2(k ) 检验和F(m,n) 检验。t 检验常用于检验方程系数的显著性(即是否显著不等于 0),将惯常态设置为 0 左右摆动,严格大于0 或小于 0 为非“常态”,被设置为双侧假设检验。自由度为k 的卡方检验常用于检验构建的服从卡方分布的统计量是否发生了显著的增长量,如异方差的 White 检验和自相关的 BG 检验,均是通过构造辅助回归式来考量方程中加入新变量后拟合优度是否发生了显著的增加量。对于由 F (m,n ) 分布,其构造原理为:分子是一个自由度为 m 的卡方分布;分母是一个自由度为 n 的卡方分布。卡方分布的理想(即期望)就是其自由度,自由度为 m 时说明该卡方分布由m 个标准正态分布的平方和构成,其数值就是m;同理于自由度为n的卡方分布。自由度为m 和n 的卡方分布各自除去自由度后表现为单位1,两个1 相除即为F(m,n) 分布的构造,F分布的理想(即期望)显然是1。可见,F (m,n ) 分布是比较两个卡方分布孰大孰小的最佳分布。在统计学或计量经济学中,总能将较大的卡方分布置于分子位置,较小的卡方分布置于分母位置,通过F 分布来检验分子是否比分母确实大这一备择假设。因此,F 分布的假设检验通常被统计学和计量经济学家共识为右单侧检验,如两变量方差之比检验、异方差的戈德菲尔德—夸特检验。
如何设置假设检验的显著性
统计学家总是通过实验观察、数理推理等形式量化社会现象的变动规律。伯努利提出了二项分布;泊松提出了泊松分布;高斯提出了正态分布;戈赛特提出了学生t分布;Fisher提出了F分布。这些统计分布都在尝试“诉说”社会现象的量化本源是什么。二项分布B(n,p)的量化本源是np和npq;泊松P(λ)分布的量化本源是λ;正态分布N(μ,σ2)的量化本源是μ和σ2;t(n)分布的量化本源是自由度n;F(m,n)分布的量化本源是m和n。林德伯格和莱维20世纪20年代证明了“中心极限定理”的存在性,使不同统计分布都最终“皈依”为正态分布(即,正态逼近定理)。有理由相信,社会现实中的一切现象的发展规律都能通过正态分布的本源来规范和约束。因此,正态分布成为经济学、管理学领域被应用最为广泛的统计分布。
试想,某事物的自然变动规律服从正态分布N (μ,σ2),则该事物的变动规律被μ 和 σ2约束。对于社会现实中的自然现象,通常无法观察穷尽。一个比较好的办法,是对某社会现象进行观察抽样,进而通过抽得的社会现象变动规律样本来猜测社会现象真实变动的规律。显然,这种抽样永远无法百分之百猜对社会现象真实变动的规律,除非抽样时穷尽社会现象变动的每一个样本。用统计学语言来表述就是,犯错是无法规避的。即我们只能尽可能去控制不犯某种错误,而无法不犯所有的错误。统计学家将其称作第一类与第二类错误,也叫“好人坏人识别错误”。
以工人生产产品为例,如果某工人每生产100 个产品有95 个合格,而5 个不合格。我们认为这个工人的生产技术水平是符合标准的,因为世界上没有百分之百不生产次品的工人存在(哪怕是极端精密的航天技术)。对于某事物,如果服从正态分布N (μ,σ2),可以在特定时间、特定环境下对该事物观察抽样100次,如果95 次都是μ,就说这个事物在这个特定的时间和环境下,水平特征确实是μ。此时,将非惯常态的备择假设设置为5% 的显著水平是较为合理的,即如果事件发生的概率小于5%,均被视为非惯常态。同理于非惯常态为100次抽样发生1 次或0.1 次的客观事件,显著水平设置为1% 或0.1% 较为合理。
其实,无论设置多大的显著水平,都表征着客观事件非惯常态发生的可能性。如果设置最强的0.1% 显著水平,说明在进行假设检验之前,隐含的假设为“非惯常态的备择假设发生可能性只有0.1%”。如果在这么强的显著水平下检验抽样结果,发现客观事物的非惯常态居然发生的话,有什么理由拒绝客观事物就是非惯常态的样子呢。显然,只能接受客观事物的非惯常态,而拒绝客观事物的惯常态。相比于0.1%的显著水平,1%、5% 的显著水平说明非惯常态在经过一次抽样进行建设检验时确实发生的可信性要弱一些。
本文总结了假设检验的本质、分类和显著性三个核心问题,以期对学生在统计学和计量经济学中学习及应用假设检验提供理论指引。假设检验纵贯统计学与计量经济学内容的始终,是我们认知客观现实世界的强有力工具之一。因为,客观现实世界的总体特性永远无法精确测度,只能通过抽样来对客观现实世界的总体特性进行假设检验来考量我们对客观现实世界的惯常认知是正确还是错误的。期望和方差是开启统计学与计量经济学大门学习之路的两把金钥匙;假设检验则是统计学与计量经济学学习征途中认识客观现实世界的强有力工具。系统误差的存在推进了统计学与计量经济学的发展,假设检验必然成为统计学与计量经济学理论发展进程中必不可少的认知系统误差的最便捷、最有力方式和方法。
在实际操作时,应紧抓小概率的备择假设不放。因备择假设的符号而给其命名→因命名而寻找临界点→因临界点而判断统计量的值是否落在临界点的命名方→落就接受备择假设。如,备择假设的符号是大于号就称之为右侧检验;在统计分布的右侧找到一个临界点使得统计分布右侧的面积是显著水平0.05、0.01 或0.001;计算出统计量的值后判断该值是否比临界点大,即是否落在临界点的右边;落就接受备择假设,不落就拒绝备择假设。