Page 217 - 《社会》2018年第3期
P. 217

社会· 2018 · 3

   库。 1 对博文语 料 库 的 描 述 分 析 (见 表 1 )显 示, 12.4% 的 博 文 发 布 于
   2012 年及以前, 70.4% 的博文发布于 2013 年,剩余的 17.4% 发布于
   2014 年。发布于 2013 年的博文数量远大于之前年份所发布的博文数
   量,这与微博平台的发展历程大体一致。 2014 年的博文数有所下降可
   能与两个因素有关:微博平台的整体活跃度在 2014 年有所下降;受数
   据收集过程的限制, 2014 年的数据仅包括前 3 个月的博文。

                          表 1 :博文的年度分布
            年份                博文数(条)           占比( % )
          2012 及以前              19649           12.4
          2013                 111496           70.4
          2014                  27220           17.2
           合计                  158365           100.0

      笔者通过社会网络分析法和监督性机器学习来处理语料库,从而
   呈现不同网络社群所持有的思潮倾向。由于字数限制,本文仅简要描
   述数据分析流程,对计算细节感兴趣的读者可向笔者索要计算程序。
       笔者使用社会网络分析法确定被研究的用户群,步骤如下:第一,
   通过正则表达式从博文中抽取微博用户 犐犇 ,并根据用户间的直接提及
   ( @ 犐犇 )关系建构有向互动网(不包括转发关系)。第二,考虑到部分用
   户间通过提及关系互动的频率非常低,并不能反映彼此持续而稳定的
   互动关系,而本文的目标是考察活跃的社会思潮表达者所构成的社群,
   经慎重考虑,作者删除了提及频率较低的互动关系 2 和由此而产生的
   孤立用户,最终获得一个包含 745 个用户和 17985 对互动关系的互动
   网。后续分析将聚焦这 745 个用户所参与的博文。第三,对互动网进
   行“社群侦测”( 犮狅犿犿狌狀犻狋 狔 犱犲狋犲犮狋犻狅狀 )来揭示用户之间的互动聚集结构。
       监督性机器学习的主要步骤如下:第一,在博文语料库中随机抽取


   1.犛犕犘2015 微博数据集由中国中文信息学会社会媒体专委会所发布,共包含 20 多亿的微博
   内容。基于研究伦理的考虑,这里并不详细罗列种子用户的名字。
   2. 笔者在选择互动频率的临界点时综合考虑如下因素:第一,临界点足够大以保证用户间的
   互动关系可以看做一个相对稳定的网络联系;第二,临界点足够小以保证最终的互动网络包
   括足够多的用户;第三,充分考虑到微博语料库规模。对语料库的描述分析显示,有 36 个月
   份的微博数大于 100 , 25 个月份的微博数大于 500 , 22 个月份的微博数大于 1000 , 16 个月份
   的微博数大于 2000 。综合上述考虑,本文最终选择 18 次作为高频/低频互动的临界点。互
   动次数小于 18 的互动关系将被删除。

    · 2 1 0 ·
   212   213   214   215   216   217   218   219   220   221   222