Page 80 - 《党政研究》2026年第3期
P. 80
研究的数据证据要完全达到这样七个标准,非做艰苦卓绝的努力不可。为此,应当多路
径、多方向、多方式地采集多源数据,规避单一路径采集数据的缺陷和风险。
社会科学研究中常用的数据采集方法,可简化为表 1 所列的 7 种方法。具体包括文献
收集法,现场观察法,深度访谈法,焦点小组访谈法,结构性访谈即常用的问卷调查、民
调,实验方法,以及计算机和数字技术的辅助方法。这些方法各有其特点,有其适宜的场
景,也各有其优缺点。比如,文献收集法难以避免 “幸存者偏差”难题,也有数据资料
辨真的难题;观察法、深度访谈与焦点小组访谈的操作成本均过高,多应用于小样本研
究,所采集的数据量偏小;标准化问卷调查虽能取得大样本数据,有助于基本趋势和相关
关系的分析,但难以揭示因果关系及其作用机制;实验法尽力模拟实验环境,但社会政治
生活尤其是作为高级动物的人类之所思所想和行动极为复杂,能否控制诸影响变量,始终
是值得警惕的问题;计算机—数字技术能采集海量数据,尽管优势多多,但因其母体样本
不清,且多来自网络使用者,难以实现必要的推论。
表 1 社会科学研究中常用的数据采集方法比较
序号 方法 适宜场景 优点 缺点与风险
1 文献收集 历史研究,理论建构 成本低,适合纵向研究 数据可能过时,幸存者偏
差
2 观察法 自然行为研究 直接真实 伦理问题,编码复杂
3 深度访谈 探索性研究,复杂问 深度挖掘,灵活性强,细 耗时耗力,主观性强,信
题研究 节丰富 度弱
4 焦点小组访谈 探索性研究,群体观 直接真实,结果共识度 技术门槛高,易受从众效
念和行为模式洞察 高,低成本高效率 应或强势参与者主导
5 结构性访谈 大样本态度—行为研 标准化高,可量化分析 成本高,依赖样本质量,
究 资源—技术依赖
6 实验 验证因果关系 控制变量,因果推断强, 技术门槛高,成本高,伦
结果客观 理限制多
数字技术与人 大数据、网络行为研 高效实时,可处理海量数 虚构和污染数据,隐私和
7
工智能 究 据,模拟仿真数据 伦理风险大
除了上表所列的适宜场景与优缺点外,数据采集还要面临一些条件的约束与挑战。归
纳起来,大体有五个方面的条件约束。一是环境约束,即可欲可求性限制;二是议题约
束,即历史性或当下议题的可行性或敏感性程度;三是技术约束,即所需要的方法与技术
存在门槛;四是资源约束,如人财物等方面资源的要求;五是伦理约束,如样本的选择及
其调查是否会影响对象本身,是否会产生不良的溢出效果。面临这些约束性条件,各种数
据采集方法均有着不同的优势与困难,因而,它们不应是替代关系,而应是互补关系。
我们再转换视角来比较智能技术与田野调查方法之间的优缺点。其一,同在场的田野
调查相比较,数字技术与人工智能是一种强大的信息识别、测量与数字采集、分析技术,
能高效采集大数据,还能仿真模拟真实数据。对其数据采集功能,学界的共识度较高;对
其仿真模拟真实数据功能,人们的争论较大。有研究者认为,高超的仿真和模拟技术易于
虚构、幻化乃至污染数据。如近期 《科学》杂志的文章认为,复杂的 AI 代理可以通过故
意犯错、装作无知以及使用类人鼠标轨迹等方式,躲避检测策略,“欺诈性地完成网络和
实验室调查”,进而污染数据。笔者也深以为然,认为对数字技术和人工智能的数据功能
应做必要而合理的界分和评估,它虽能高效采集和分析数据,但不应由其自动生成数据。
也就是说,“识别和发现”数据应是合适的,而 “虚拟和建构”数据却应谨慎。其二,经
由不同来源和技术而采集的数据,在样本的代表性和信效度方面应各有其特点。如田野调
查能采集质化或量化数据,具有 “既见树木又见森林”的优势;数字技术与人工智能所
采集的数据尽管是海量的,但往往是标准化的数字而非 “活生生的人”。其三,数据采集
7 9 · ·

