Page 233 - 《社会》2014年第6期

P. 233

社会· ２０１４ · ６

是不同取向的统计学家有自身的学术传承和职业倾向，因此，也不存在
统一应用和盲目推行某一种检验模式的倾向。
真正值得注意的问题是犖犎犛犜在各统计应用领域（包括生物统
计、医学统计以及整个社会科学实证研究领域）的兴起与流行，并且成
为唯一一种获得大规模流行的实用型假设检验。典型的犖犎犛犜流程
如下：（１）建立原假设与备择假设，（２）选定检验统计量，（３）确定显著性
水平（通常为０．０５、０．０１或０．００１），（４）根据样本数据计算检验统计量
的值，使用两种“等价”方法、即拒绝域法（临界值法）或狆值法决定是
否拒绝原假设，（５）将统计决策转换为实际情境下的行为决策，如确定
某一实验干预是否有效，（６）在频率意义上介绍两类错误的相关理论知
识，但一般不要求计算 β 。犖犎犛犜显然直接根源于费雪和奈曼－皮尔逊
的统计思想，但无论是费雪还是奈曼－皮尔逊，都不会毫无保留地赞同
犖犎犛犜的操作流程。如前所述，费雪会认为备择假设的引入是无效的，
显著性水平 α 也不能简单地频率化为若干次重复抽样前提下的弃真错
误率。而奈曼－皮尔逊也会认为一次检验只能有一个显著性水平而不
能同时存在若干个显著性水平，同时一个检验不能简单只控制 α 而不
去控制 β ；此外，也不能因为一次观测数据提供了统计上显著的结果，
就认为所涉及的实验处理就是有效的，因为他们的显著性水平只是一
个频率化的概念，“在任一个案中，均无法确定假设是真是假。但对统
计检验的效率仍可做出评估，其评估方式在于它对数学模型所规定情
境下，经由重复使用而产生的两类错误的控制程度”（犖犲狔犿犪狀犪狀犱
犘犲犪狉狊狅狀，１９３６）。在“重复使用”这一条件无法满足的时候，奈曼－皮尔逊并
不主张基于一次实验或一次观测就做出绝对化的判断，他们提醒“从数
学理论的角度看，我们能做的就是证明这些错误可以控制和最小化。
而针对某一案例使用这一工具时，两者之间的平衡需由研究者自己决
定”（犖犲狔犿犪狀犪狀犱犘犲犪狉狊狅狀，１９３３）；同时还声明“我们并未声称通过统计
分析可最终接受或拒绝某一科学假设。我们说的是‘以较大或较小的
信心’接受或拒绝某一假设。此外，我们从未声称统计方法应当迫使实
验者采用不可更改的接受程序”（犘犲犪狉狊狅狀，１９５５）。
但是，在知识传承过程中，原创者构建思想的观点或技术工具一旦
提出就不完全属于原创者本身，原创者所看重的要旨在后来者眼中未
必如此；原创者所忧虑的问题，在后来者眼中未必值得考虑。这是知识

· ２２６ ·

228 229 230 231 232 233 234 235 236 237 238