Page 233 - 《社会》2014年第6期
P. 233

社会· 2014 · 6

   是不同取向的统计学家有自身的学术传承和职业倾向,因此,也不存在
   统一应用和盲目推行某一种检验模式的倾向。
       真正值得注 意 的 问 题 是 犖犎犛犜 在各 统计 应用 领 域 (包 括 生 物 统
   计、医学统计以及整个社会科学实证研究领域)的兴起与流行,并且成
   为唯一一种获得大规模流行的实用型假设检验。典型的 犖犎犛犜 流程
   如下:( 1 )建立原假设与备择假设,( 2 )选定检验统计量,( 3 )确定显著性
   水平(通常为 0.05 、 0.01 或 0.001 ),( 4 )根据样本数据计算检验统计量
   的值,使用两种“等价”方法、即拒绝域法(临界值法)或                        狆  值法决定是
   否拒绝原假设,( 5 )将统计决策转换为实际情境下的行为决策,如确定
   某一实验干预是否有效,( 6 )在频率意义上介绍两类错误的相关理论知
   识,但一般不要求计算 β 。 犖犎犛犜 显然直接根源于费雪和奈曼 - 皮尔逊
   的统计思想,但无论是费雪还是奈曼 - 皮尔逊,都不会毫无保留地赞同
   犖犎犛犜 的操作流程。如前所述,费雪会认为备择假设的引入是无效的,
   显著性水平 α 也不能简单地频率化为若干次重复抽样前提下的弃真错
   误率。而奈曼 - 皮尔逊也会认为一次检验只能有一个显著性水平而不
   能同时存在若干个显著性水平,同时一个检验不能简单只控制 α 而不
   去控制 β ;此外,也不能因为一次观测数据提供了统计上显著的结果,
   就认为所涉及的实验处理就是有效的,因为他们的显著性水平只是一
   个频率化的概念,“在任一个案中,均无法确定假设是真是假。但对统
   计检验的效率仍可做出评估,其评估方式在于它对数学模型所规定情
   境下,经 由 重 复 使 用 而 产 生 的 两 类 错 误 的 控 制 程 度”( 犖犲 狔 犿犪狀犪狀犱
   犘犲犪狉狊狅狀 , 1936 )。在“重复使用”这一条件无法满足的时候,奈曼 - 皮尔逊并
   不主张基于一次实验或一次观测就做出绝对化的判断,他们提醒“从数
   学理论的角度看,我们能做的就是证明这些错误可以控制和最小化。
   而针对某一案例使用这一工具时,两者之间的平衡需由研究者自己决
   定”( 犖犲 狔 犿犪狀犪狀犱犘犲犪狉狊狅狀 , 1933 );同时还声明“我们并未声称通过统计
   分析可最终接受或拒绝某一科学假设。我们说的是‘以较大或较小的
   信心’接受或拒绝某一假设。此外,我们从未声称统计方法应当迫使实
   验者采用不可更改的接受程序”( 犘犲犪狉狊狅狀 , 1955 )。
       但是,在知识传承过程中,原创者构建思想的观点或技术工具一旦
   提出就不完全属于原创者本身,原创者所看重的要旨在后来者眼中未
   必如此;原创者所忧虑的问题,在后来者眼中未必值得考虑。这是知识

    · 2 2 6 ·
   228   229   230   231   232   233   234   235   236   237   238