Page 207 - 《社会》2022年第3期
P. 207
社会·2022·3
的统计推断形式。 4 这意味着,在因果图中各个变量没有特定类型或分
布的限定,可以是连续的、离散的、均质的、长尾的;同时,变量间的关
联也不存在特定的形式,在线性之外,也可能是幂率、二次、异质等其他
非线性相关。
再有,因果图也存在不同的细分类型,参考温什普等人的研究,本
文采用开环有向图 ( directed acyclic graph,DAG) 这种形式 (Shrier and
Platt,2008)。 所谓“有向”是指所有存在于两变量间的连线均以箭头指
明从因到果的方向;开环则是说任何一个以特定变量为“因”的变量,都
不会再指回到该变量,即因果图中不允许存在 T→Y→T 的形式。 换言
之, 任何变量不会同时成为自身的子代变量。 这一规则背后的逻辑在
于,微观来看,任何“因”与“果”之间都存在先后次序,“因”必先于“果”
5
发生。 这也意味着因果图无法直观地表现社会科学研究中常见的互为
6
因果问题(联立性偏误), 如个体的身体健康程度和收入水平之间可能
存在相互促进的作用。 但正如摩根和温什普(Morgan and Winship,2014:
80)所指出的,互为因果并不代表“因”与“果”真的同时发生,而是所使
用的实证材料无法区分变量发生的先后关系, 其解决方式有赖于改善
实证材料、改进研究设计或改变问题假设。
进而言之,无论多么复杂的因果图,均由三种基本构型所组成。 其
一为链状( chain)构型,如图 2(a)所示,位于三个变量间的两处箭头线
方向均一致,变量 A 通过中介变量 B 充当了变量 C 的“因”,对应到图
1 左图中,X→T→C,T→C→Y,U→C→Y 均是典型的链状结构。 其二为
叉状(fork)构型,如图 2(b)所示,即以同一个变量 A 为源头延伸出两条
箭头线,同时指向另两个变量 B 和 C,本文将其概括为“共因”结构。 在
此情况下, 作为另外两个变量共同之“因” 的变量 A 被称为混淆变量
( confounder),在图 1 左图中,变量 X 对于 T 和 Y、变量 U 对于 C 和 Y 而
言均为混淆变量。 其三为反叉状(inverted fork)构型,如图 2(c)所示,变
量 A 与 B 分别有箭头线指向变量 C,变量 C 即为 A 和 B 的“同果”,此
4. 关于因果图相较于路径图的优势,可参考摩根 与温什 普的著作(Morgan and Winship,
2014:84-90)。
5. 谢宇与邓肯曾讨论过“圣诞节前疯狂购物”看似先有“果”(购物)后有“因”(圣诞节),
但实质上“因”是人们对圣诞节即将到来的预期,在时间次序上仍然先于“果”(购物)。
6. 呈现时需要对同一变量指定角标以引入时间维度,详见后文。
· 200·