Page 179 - 《社会》2024年第6期
P. 179
社会·2024·6
出现分化。 在宏观制度逻辑下,组织面临的产权制度规范约束性越小、
行业市场竞争性越大、城市对高学历者吸纳能力越低,招聘决策过程中
出现高配偏好的概率越大。
三、 研究设计
(一)数据来源
本文使用的数据来自 2023 年中国在线联合调查实验研究(Conjoint
Online Survey Experiment Research,简称 COSER)。 COSER 这一项目的主
要目标是在快速变迁的劳动力市场中动态地收集需求侧和供给侧的数
据, 其中需求侧的组织或雇主信息通过抓取在线招聘职位信息和机器
学习识别文本信息而获得, 供给侧的求职者信息通过析因实验设计和
完全随机分配而获得。 项目团队将实验简历投递到在线招聘职位,记录
雇主或者招聘方真实的反馈结果, 由此实现供给侧和需求侧数据的匹
配(李晓光,2024)。 本文剔除需求侧组织或雇主层次的核心变量存在缺
失值的样本后,进入实证分析的样本共 37 273 个。
(二)需求侧的在线招聘职位和变量测量
本项目通过数据抓取来收集需求侧组织或雇主层次的信息。 项目
团队选择在国内应用比较广泛的五个求职网站, 每个网站随机抓取近
一个月内发布的 10%的职位,这些数据可用于分析就业市场的趋势、职
位需求的变化以及特定行业或地区的招聘情况。 抓取内容包括三个层
次的信息,一是网站层次的职位链接和发布日期,其中职位链接作为基
础变量,可以用于简历投递实验和供需两侧数据的匹配;二是组织层次
的变量,包括组织编号、组织规模、所在城市、产权类型、行业类型和上
市状态等;三是工作岗位层次的变量,包括职位编号、职位名称、所需教
育水平、工资水平、工作经验要求、工作福利、雇佣类型等。 团队累计抓
取了大约 55 万个在线招聘职位, 但部分职位在同一网站发布多次,或
部分职位同时在不同网站发布,我们综合运用公司名称、职位名称、工
作地点、岗位要求等信息来剔除重复职位,最终剩余约 43 万个职位。 需
要说明的是,在线招聘职位数据中绝大部分信息为结构化数据(分类变
量),但有少量非结构化的文本信息(例如职位名称、行业类型等),本
文综合应用机器学习和生成式人工智能来识别并归类。 下面介绍需求
侧的变量测量过程,表 3 为各变量的描述性统计结果。
· 172·