Page 181 - 《社会》2024年第6期
P. 181
社会·2024·6
组织规模通过两种方式来测量,一是组织规模的类型变量,依据国
家统计局对不同规模企业的划分标准,本文划分了四类企业:微型企业
(人数小于 20 人)、小型企业(20 到 300 人之间)、中型企业(300 到 1 000
人之间)和大型企业(1 000 人及以上)。 二是组织规模的连续变量,本文
将在线招聘数据中的组织规模转化为一个取值为 10 到 10 000 人的连
续变量,为了组织规模变量的分布趋向正态分布,本文取其自然对数,
由此得到连续性的组织规模(对数)。
产权类型强调组织的资产或者资源的所有权和控制权。 本文使用
在线招聘数据中的组织性质来测量其产权类型, 该变量提供了结构化
的信息,本文依据组织性质划分了六种产权类型,包括党政机关、国有
企业、私营企业、外资企业、合资企业和无法分类的其他组织。 此外,本
研究将党政机关和国有企业划分为公有产权(体制内组织),将私营、外
资、合资和其他企业划分为私有产权(体制外组织)。
行业类型强调组织从事的生产服务或业务领域的差异。 本文依据
在线招聘组织半结构化的文本数据和机器学习的方法来识别其产业类
型。 我们首先划分了三大产业类型,但由于第三产业内部存在很强的异
质性,本研究进一步将第三产业细分为四种类型,由此产生了表 3 中的
六 种具体 的产 业 类型:第 一产 业(农 林 牧 渔 业),第 二 产 业(采 矿 制 造
等),第三产业(批发交通等、信息金融等、科教文卫等、公管服务等)。
职业类型反映招聘岗位的职责、身份和专业领域等。 由于在线职位
数据提供的是非结构化文本数据,我们基于国家标准职业分类编码,使
用机器学习方法来识别岗位名称文本中的职业类型;作为交叉验证,项
目团队使用生成式人工智能进行批量化的识别。 这些方法帮助我们最
终识别出国家标准职业的中类编码,考虑到研究的简明性和清晰性,本
文聚焦职业大类,具体包括:管理人员、专业技术人员、办事人员、服务
人员和一般体力劳动共五种工作岗位。
工作岗位特征是通过工作经验要求和工资水平来测量的。 工作经验
要求是一个结构化的类型变量,选项包含“不限或无经验要求”“1 年以
下”“1 到 3 年”“3 到 5 年”“5 到 10 年”和“10 年以上”,本文通过取中间
值将其转变为一个连续变量。 工资水平是一个半结构化的文本数据,包
含区间工资、年薪工资、月薪工资和发工资月数等丰富的薪资信息。 项目
组通过文本数据处理和数值区间计算将所有职位的工资水平转化为月
· 174·