Page 106 - 《社会》2015年第2期

P. 106

必要与如何：基于历史资料的量化数据库构建与分析

生区域等均存在差异，而且又与同层级大学有很多共性，据此推论不同
层级精英大学的学生来源状况较为合适。４
最后，即使对于定量研究本身而言，学籍卡等个人历史信息资料也
可以弥补相关随机抽样调查数据研究的不足。很多有关高等教育和生
源社会背景的定量分析都依靠抽样调查数据。这类数据强调统计代表
性，试图通过统计推论将样本所反映的信息推及到研究者关注的学生
总体，但抛开回溯性社会调查所面临的如生存、迁移等选择性偏误和记
忆偏误不谈，社会抽样调查资料除特殊设计的问题以外，往往无法提供
更多被调查个体在当时所处的社会环境和同辈（犲犲狉）信息，如其他同
狆
校、同专业、同时期学生的家庭背景、性别构成等等。由此可见，基于具
体学校的全部学籍卡建成的数据库的首要学术价值不在于统计推论全
国整体，而在于它能够真实地反映不同时期人群（犮狅犺狅狉狋）与其所处不
同社会环境的互动。在这个意义上，结合调查数据的统计代表性与档
案数据的深度与历时性，或许会成为未来一个很有价值的研究方向。

二、历史资料数据化处理的问题与应对

对各类历史资料所含信息进行系统、合理的分类与编码是开展数
据库构建和进行最终定量分析的基础和前提，但历史资料并不是为既
定的社会科学研究编码或分类体系而创建的，选用何种标准可以准确、
合理地在定量分析中反映历史资料信息便成为难题，更何况大规模、长
时期的历史资料还普遍存在体量庞大、填写混乱、内容缺失和不同年代
同类信息含义有差异等诸多问题。采用灵活、有效的编码方法成为研
究历史数据成败的关键。基于现当代大学学籍卡资料的研究，我们认
为以下几条经验或原则可供参考：５
第一，通用、权威的分类或编码标准可作为历史数据编码的基础，
但决不能为单一标准所囿，应充分考虑材料与研究对象的实际，尽量挖
掘材料自身信息，采取多种方法，保证计算结果的准确性。比如，对于
学生的专业院系，国家前后有不同的划分方法和标准，各学校又有一定
的灵活性和差异性，因此，我们既要尊重各学校的实际，又要参照国家

４．关于以上两方面北京大学、苏州大学个案的可推理性更具体讨论，可参见：梁晨等（２０１３：
２９－３６）。
５．学籍卡研究时编码工作的具体考虑和操作可参阅梁晨等（２０１３：３７－５７）。

· ９９ ·

101 102 103 104 105 106 107 108 109 110 111