Page 80 - 《党政研究》2026年第3期
P. 80

研究的数据证据要完全达到这样七个标准,非做艰苦卓绝的努力不可。为此,应当多路
             径、多方向、多方式地采集多源数据,规避单一路径采集数据的缺陷和风险。
                  社会科学研究中常用的数据采集方法,可简化为表 1 所列的 7 种方法。具体包括文献
             收集法,现场观察法,深度访谈法,焦点小组访谈法,结构性访谈即常用的问卷调查、民
             调,实验方法,以及计算机和数字技术的辅助方法。这些方法各有其特点,有其适宜的场
             景,也各有其优缺点。比如,文献收集法难以避免 “幸存者偏差”难题,也有数据资料
             辨真的难题;观察法、深度访谈与焦点小组访谈的操作成本均过高,多应用于小样本研
             究,所采集的数据量偏小;标准化问卷调查虽能取得大样本数据,有助于基本趋势和相关
             关系的分析,但难以揭示因果关系及其作用机制;实验法尽力模拟实验环境,但社会政治
             生活尤其是作为高级动物的人类之所思所想和行动极为复杂,能否控制诸影响变量,始终
             是值得警惕的问题;计算机—数字技术能采集海量数据,尽管优势多多,但因其母体样本
             不清,且多来自网络使用者,难以实现必要的推论。
                                       表 1  社会科学研究中常用的数据采集方法比较
              序号        方法               适宜场景                      优点                     缺点与风险

               1 文献收集              历史研究,理论建构 成本低,适合纵向研究                            数据可能过时,幸存者偏
                                                                                   差
               2 观察法               自然行为研究                 直接真实                     伦理问题,编码复杂

               3 深度访谈              探索性研究,复杂问 深度挖掘,灵活性强,细 耗时耗力,主观性强,信
                                   题研究                    节丰富                      度弱

               4 焦点小组访谈            探索性研究,群体观 直接真实,结果共识度 技术门槛高,易受从众效
                                   念和行为模式洞察               高,低成本高效率                 应或强势参与者主导

               5 结构性访谈             大样本态度—行为研              标准化高,可量化分析               成本高,依赖样本质量,
                                   究                                               资源—技术依赖

               6 实验                验证因果关系                 控制变量,因果推断强, 技术门槛高,成本高,伦
                                                          结果客观                     理限制多

                    数字技术与人 大数据、网络行为研 高效实时,可处理海量数 虚构和污染数据,隐私和
               7
                    工智能            究                      据,模拟仿真数据                 伦理风险大
                  除了上表所列的适宜场景与优缺点外,数据采集还要面临一些条件的约束与挑战。归

             纳起来,大体有五个方面的条件约束。一是环境约束,即可欲可求性限制;二是议题约
             束,即历史性或当下议题的可行性或敏感性程度;三是技术约束,即所需要的方法与技术
             存在门槛;四是资源约束,如人财物等方面资源的要求;五是伦理约束,如样本的选择及
             其调查是否会影响对象本身,是否会产生不良的溢出效果。面临这些约束性条件,各种数
             据采集方法均有着不同的优势与困难,因而,它们不应是替代关系,而应是互补关系。
                  我们再转换视角来比较智能技术与田野调查方法之间的优缺点。其一,同在场的田野
             调查相比较,数字技术与人工智能是一种强大的信息识别、测量与数字采集、分析技术,
             能高效采集大数据,还能仿真模拟真实数据。对其数据采集功能,学界的共识度较高;对
             其仿真模拟真实数据功能,人们的争论较大。有研究者认为,高超的仿真和模拟技术易于
             虚构、幻化乃至污染数据。如近期 《科学》杂志的文章认为,复杂的 AI 代理可以通过故
             意犯错、装作无知以及使用类人鼠标轨迹等方式,躲避检测策略,“欺诈性地完成网络和
             实验室调查”,进而污染数据。笔者也深以为然,认为对数字技术和人工智能的数据功能
             应做必要而合理的界分和评估,它虽能高效采集和分析数据,但不应由其自动生成数据。
             也就是说,“识别和发现”数据应是合适的,而 “虚拟和建构”数据却应谨慎。其二,经
             由不同来源和技术而采集的数据,在样本的代表性和信效度方面应各有其特点。如田野调
             查能采集质化或量化数据,具有 “既见树木又见森林”的优势;数字技术与人工智能所
             采集的数据尽管是海量的,但往往是标准化的数字而非 “活生生的人”。其三,数据采集
                                                                                                      7 9 ·  ·
   75   76   77   78   79   80   81   82   83   84   85