Page 68 - 《社会》2017年第2期
P. 68
网络舆情是否影响股市行情?
等特征,进行了加权处理,这与个人在对这些信息难以充分掌握的情况
下直接获取的词频相比更为可靠。第二,使用官方提供的词频等二手
数据是国际、国内大数据分析文献广泛使用的方法(如谷歌趋势、推特
第三方词频工具等)。 5 第三,本文利用新浪大数据的目标是获取词频
指标,而非统计精确的词频数本身。我们更无意把本文的研究结果作
为一种准金融工具,因此不关心词频指数每上升一个点对股市能有几
个点的精确拉动作用,而是关心这种统计关联是否存在。
虽然新浪微博可能会因营销需要而将特定的关键词(如明星名字、
企业商标)有意识地推广,甚至直接设为热词,热词数据就可能不准确。
或者,商业水军的运作会使词频受到人为干扰。但我们所检索的关键
词均为技术性的股市用语,而不是具体的哪只股票或哪个产品,并没有
商业性导向,所以被新浪处于商业利益修改的概率极低。另一方面,水
军的信息同样是市场信息,是舆情的一部分,会对社会产生影响,理所
当然在我们的分析范围之内。没有任何分析上的必要进行这种筛选。
因此,笔者依据中国证券业协会《证券市场基础知识》、袁剑的《中
国证券市场批判》等书籍,搜集到 200 多个股市术语。我们发现,其中
有 108 个术语成为微博热 词。在 这 108 个 热词 中, 77 个 为 中性(“股
票”“股市”“证监会”等),而具有明确利空含义的有 18 个(“股灾”“爆
仓”“跌停”“暴跌”“停牌”“熊市”“空头”“利空”“割肉”“逼空”“抛售”“离
场”“崩盘”“跳水”“打压”“洗盘”“阴跌”“套牢”),有明确利好含义的 13
个(“救市”“抄底”“牛市”“涨停”“多头”“利多”“反弹”“回档”“增仓”“护
盘”“开户”“改革牛”“慢牛”)。对于利空热词和利好热词,我们分别从
新浪微博中获得股市震荡期、平稳期的全部每日热议指数。具体统计
量描述参见表 1 。
我们把这 31 个术语和“上证指数”(每日开盘价与收盘价均值)的
标准化值绘制在图 2 中(横轴单位为“天”)。通过去量纲,我们可以直
接比较不同曲线的变化幅度。从图 2 可以看出,无论是震荡期还是平
稳期,热词的变化起伏都大于“上证指数”的变化起伏。尽管因为视觉
效果,我们对热词曲线 犣 值已经取了前后 4 日(共 9 天)的滑动平均值,
但微博热议的变化幅度仍远大于股市本身的变化幅度。这本身是体现
5. 具体的实 证 分 析 参 见 相 关 研 究 ( 犘狉犲犻狊 , 犲狋犪犾. , 2013 ; 犓犻犿 , 犲狋犪犾. , 2013 ; 犅狉 狔 犱犲狀 , 犲狋犪犾. ,
2013 ; 犆狌狉犿犲 , 犲狋犪犾. , 2014 ; 犇犪 , 犲狋犪犾. , 2015 ),直接关于数据的文献回顾和讨论参见另一部分
相关研究( 犛犮犺犲犻狋犾犲 , 2011 ; 犕犲犾犾狅狀 , 2013 , 2014 ; 犖狌狋犻 , 犲狋犪犾. , 2014 )。
· 6 1 ·