Page 93 - 《社会》2016年第4期
P. 93

社会· 2016 · 4

   规模和结构、数量和质量指标,本文选取了以下 2 组共 6 个网络指标:
       网络规模( 1 个指标):即讨论网的总人数。规模越大,说明可接触
   到的信息和资源也越多。
       网络结构( 5 个指标):具体测量方式是询问讨论网中是否有“现在
   大学工作的”、“现在科研院所工作的”、“现在国营/民营/外资企业工作
   的”、“现在政府部门工作的”和“外国人”。如果“有”赋值为 1 ,“没有”
   赋值为 0 。由此分别代表“与大学的纽带关系”、“与科研院所的纽带关
   系”、“与企业的纽带关系”、“与政府的纽带关系”和“与国际学术圈的纽
   带关系”等网络结构特征。不同的网络结构变量对应不同的网络作用
   机制:与学术界的个人关系主要用于传递学术信息,与企业和政府部门
   的个人关系主要用于传递科研资源。
       3. 其他变量
       除学术产出和学术社会网络外,本文的另一核心研究变量是“性
   别”。该变量为虚拟变量,男性 =1 ,女性 =0 。
       此外,本文还把以往研究中被认为对“学术产出之谜”有明显影响
   的重要变量作为控制变量。具体包括年龄、婚育状况、教育水平、留学
   情况(“是否有过一年以上海外留学或工作的经历”)、职称水平和单位
   级别等。上述变量的具体分布及其性别差异检验结果如表 1 所示。可
   以发现:除婚育状况外,男女高校科研人员在其他变量上均存在显著差
   异,女性在各项指标上几乎都落后于男性。
       (三)分析策略
       由于本文的因变量(论文发表量)属于离散型数据,不宜选择常规
   的多元线性回归模型。对于只能取非负整数(即 0 , 1 , 2 ……,比如专利
   个数、文章篇数、子女个数和看病次数等)的计数变量而言,较为常用的
   统计方法是泊松回归( 犘狅犻狊狊狅狀狉犲 犵 狉犲狊狊犻狅狀 )。但泊松回归有一个较大局
   限,要求分布的均值与方差相等,即“均等分散”,而这一分布特征往往
   与实际数据不符。就本文的因变量而言,论文产量的方差明显高于论
   文产量的均值,面对这样的“过度分散”数据,更为合适的统计模型是负
   二项回归( 狀犲 犵 犪狋犻狏犲犫犻狀狅犿犻犪犾犿狅犱犲犾 )。 11 本文最终选择标准负二项回归模

   11. 对模型 犪犾 狆 犺犪 值的检验结果也显示应使用负二项回归而非泊松回归。此外,本文的因变
   量 犛犆犐 / 犈犐 论文量,虽然有 389 个案例取值为 0 ,占总案例数的 28.4% ,但对 犞狌狅狀 犵 值的检验
   结果显示,应使用“标准负二项回归”,拒绝“零膨胀负二项回归”。关于泊松回归、负二项回归
   和零膨胀负二项回归的区别及 犛狋犪狋犪 的应用,请参考陈强, 2014 。
    · 8 6 ·
   88   89   90   91   92   93   94   95   96   97   98