Page 25 - 《社会》2017年第2期
P. 25
社会· 2017 · 2
表 2 : 犵 犾犪狊狊狅犿犻狓 模型对事件进行聚类的结果
事件编号 子图编号
犲1 1
犲2 1
犲3 1
犲4 1
犲5 1
犲6 1
犲7 1
犲10 1
犲12 1
犲8 2
犲9 2
犲11 2
犲13 2
犲14 2
(四)罚似然图模型的其他扩展
1. 分组罚似然图模型
在罚似然图模型中,当自变量中含有定类变量时,由于采用虚拟编
码的形式,每个定类变量构成一个变量组。在这种情况下,直接对模型
的每个变量施加惩罚项就不太合适,会造成一个定类变量的部分虚拟
编码变量被剔除出模型,而实际上需要保留全部虚拟编码变量组以表
示该定类变量。因此,惩罚项应加在变量组这一层次,而非单个虚拟变
量上,这样才能保证同一组的虚拟变量同进同出。有学者( 犢狌犪狀犪狀犱
犔犻狀 , 2006 )提出 了 分 组 的 罚 似然 回归 模 型,并 用 于 图 模 型 拟 合 ( 犢狌犪狀
犪狀犱犔犻狀 , 2007 ),弗里德曼等人( 犉狉犻犲犱犿犪狀 , 犲狋犪犾. , 2010 )在此基础上进
一步提出了能够改善组稀疏度的罚似然模型。
分组罚似然模型并不局限于在技术层面上处理定类数据或变量之
间的交互效应,在其他领域也有很多应用。例如,在文本语义模型中,
同义词或相近含义的词通常不会同时出现在一个句子中,从而形成一
定程度的“互斥”,通过将相近语义的词设置为同一组变量并将罚似然
加在组的层次,往往可以得到更好的拟合效果。
2. 潜变量罚似然图模型
分组罚似然模型的要求是变量的依赖关系可观测,但如果假设变
量之间存在条件依赖且变量的分组未被观测,则上述组内依赖关系变
· 1 8 ·