Page 226 - 《社会》2022年第1期
P. 226
被访者驱动抽样:基于多种方法的估计诊断
生依赖。 瓶颈是指样本招募困于某处而停滞不前的情况,如果样本存在
瓶颈,即一些链条将呈现不同的收敛点,就表示这些链条的子样本可能
不完全来自同一群体;如果样本不存在瓶颈,即链条都将在大致相同的
聚 合 点收 敛 , 就 表 明 每 个 链 条 的 子 样 本 来 自 相 同 的 群 体( Heckathorn
and Cameron,2017)。 瓶颈图可以看作叠加多个种子链条的收敛图,其假
设是:如果 RDS 样本消除对种子的依赖性,那么,不同种子链条将最终
收敛到相同的估计值上(Gile,et al.,2015)。 收敛图可以帮助研究者动
态评估整个 RDS 样本的收敛情况,瓶颈图则可以分析每条种子链的样
本收敛情况。 识别样本瓶颈非常重要,因为它们的存在不仅可能大大增
加对RDS 估计的偏差, 还可能会扭曲对数据中其他变量的估计(Goel
and Salganik,2009)。 卢乔斯科等(Lachowsky,et al.,2016)使用 RDS 方法
对加拿大温哥华的 719 名性少数人群(GBMSM)进行横断面研究时,通
过绘制收敛图和瓶颈图证明,当样本不受种子选择偏差的影响时,RDS
估计将保持稳定。 作者就此认为,在任何抽样阶段都可以创建这些诊断
图,以确定 RDS 样本何时才能摆脱对种子的依赖,或者是否需要进一
步 添 加 特 定 的 种 子 来 解 决 可 能 的 样 本 瓶 颈 , 为 吉 尔 等 ( Gile,et al.,
2015)提出的诊断学提供一个经验性的“概念证明”。 他们还指出,在某
些情况下,比如,当样本转移到目标群体从未探索到的部分时,或者在
样本数据存在极强的瓶颈和非常不平衡的种子选择的情况下, 收敛图
和瓶颈图可能无法发现真正的问题。
(三)地理信息
另外,与地域有关的非随机招募会使 RDS 样本所覆盖的地理区域
受到极大影响,RDS 样本有可能不是来自整个调查区域, 这对 RDS 的
估计有效性至关重要。“随机招募假设”要求招募的受访者应该来自整
个 调 查 区 域 而 不 是 局 部 区 域 (Toledo,et al.,2011)。 赫 克 索 恩 等
(Heckathorn,et al.,2002)报告说,从广泛的地理区域招募的不同的 RDS
样本才具有总体代表性。 事实上,RDS 样本在空间上更加聚类,导致在
某些地理区域过度招募,在其他地区则招募不足,甚至没有招募到受访
者,这不仅限制了招募的地理覆盖范围,还创建了一个空间同质性更大
的样本(Rudolph,et al.,2015)。 近些年,一些学者开始利用地理信息,比
如邮政编码、村落或家户方位等,来评估 RDS 样本是否受到局部区域
招募的影响。 这是因为,使用 RDS 方法进行抽样调查,样本的地理边界
· 219·