Page 233 - 《社会》2014年第6期
P. 233
社会· 2014 · 6
是不同取向的统计学家有自身的学术传承和职业倾向,因此,也不存在
统一应用和盲目推行某一种检验模式的倾向。
真正值得注 意 的 问 题 是 犖犎犛犜 在各 统计 应用 领 域 (包 括 生 物 统
计、医学统计以及整个社会科学实证研究领域)的兴起与流行,并且成
为唯一一种获得大规模流行的实用型假设检验。典型的 犖犎犛犜 流程
如下:( 1 )建立原假设与备择假设,( 2 )选定检验统计量,( 3 )确定显著性
水平(通常为 0.05 、 0.01 或 0.001 ),( 4 )根据样本数据计算检验统计量
的值,使用两种“等价”方法、即拒绝域法(临界值法)或 狆 值法决定是
否拒绝原假设,( 5 )将统计决策转换为实际情境下的行为决策,如确定
某一实验干预是否有效,( 6 )在频率意义上介绍两类错误的相关理论知
识,但一般不要求计算 β 。 犖犎犛犜 显然直接根源于费雪和奈曼 - 皮尔逊
的统计思想,但无论是费雪还是奈曼 - 皮尔逊,都不会毫无保留地赞同
犖犎犛犜 的操作流程。如前所述,费雪会认为备择假设的引入是无效的,
显著性水平 α 也不能简单地频率化为若干次重复抽样前提下的弃真错
误率。而奈曼 - 皮尔逊也会认为一次检验只能有一个显著性水平而不
能同时存在若干个显著性水平,同时一个检验不能简单只控制 α 而不
去控制 β ;此外,也不能因为一次观测数据提供了统计上显著的结果,
就认为所涉及的实验处理就是有效的,因为他们的显著性水平只是一
个频率化的概念,“在任一个案中,均无法确定假设是真是假。但对统
计检验的效率仍可做出评估,其评估方式在于它对数学模型所规定情
境下,经 由 重 复 使 用 而 产 生 的 两 类 错 误 的 控 制 程 度”( 犖犲 狔 犿犪狀犪狀犱
犘犲犪狉狊狅狀 , 1936 )。在“重复使用”这一条件无法满足的时候,奈曼 - 皮尔逊并
不主张基于一次实验或一次观测就做出绝对化的判断,他们提醒“从数
学理论的角度看,我们能做的就是证明这些错误可以控制和最小化。
而针对某一案例使用这一工具时,两者之间的平衡需由研究者自己决
定”( 犖犲 狔 犿犪狀犪狀犱犘犲犪狉狊狅狀 , 1933 );同时还声明“我们并未声称通过统计
分析可最终接受或拒绝某一科学假设。我们说的是‘以较大或较小的
信心’接受或拒绝某一假设。此外,我们从未声称统计方法应当迫使实
验者采用不可更改的接受程序”( 犘犲犪狉狊狅狀 , 1955 )。
但是,在知识传承过程中,原创者构建思想的观点或技术工具一旦
提出就不完全属于原创者本身,原创者所看重的要旨在后来者眼中未
必如此;原创者所忧虑的问题,在后来者眼中未必值得考虑。这是知识
· 2 2 6 ·