传播学博士论文、国家社科重大基金阶段性成果——分析李文亮的评论区。

“春天的花开秋天的风”:社交媒体、集体悼念与延展性情感空间 ——以李文亮微博评论(2020-2021)为例的计算传播分析

全文 http://cjjc.ruc.edu.cn/CN/Y2021/V43/I3/79

研究方法完全在搞笑

本文通过计算传播研究方法,抓取并挖掘分析2020年2月-2021年2月整整一年间李文亮微博下的134万多条评论,以期理解这一特定的网络公共哀悼事件,并藉此探讨网络哀悼与延展性情感空间的普遍理论问题。

所谓的抓取并不是实时抓取,而是在二零二一年一年之后,经历了多轮审查删除,舆论引导之后一次性抓取的数据。他用了一种截面研究的方法,一次性的收集数据。但是显然对于这种高度敏感,长期审查的环境下,想要进行研究。在一定程度上忽略了发布时,就进行了自动审查的情况下。想要收集到足够充分并且真实的数据就需要进行纵向研究的方法。进行实时的爬取。也就是说,这一年的期间需要在每时每刻(在很多自动审查和人工审查没有将评论删除的情况下)抓取相应的评论内容,这样才能保证数据的真实性。

在李文亮逝世后,其微博并未关闭。人们源源不断地涌入这个逝者曾经的自留地,几乎每分钟都有新的留言产生。

可以看得出来,我们作者是知道评论是实时产生的。但是他假装删除审查之类的情况并不存在。从而规避自己数据收集方法上的巨大漏洞。

我们采集了2020年2月6日21时30分至2021年2月7日23时59分李文亮置顶微博下的全量评论数据,清洗后得到1343192条有效评论数据,包含776449位用户的评论信息。本文主要使用在Python环境上运行的jieba中文分词器对评论文本进行分词和统计;使用MatLab的神经网络模式识别应用(Neural Network Pattern Recognition app,nprtool)对文本主题进行分类;使用LIWC词典进行情绪词的识别与标注,进而对文本进行情绪倾向分类。具体技术细节在报告相应结果时说明。

如果作为一篇计算机方向的论文。那么需要考虑很多数据清洗上的问题、以及他提出的很多技术上的信度效度的问题。但作为一篇跨学科的文章。并且还发表在传播学期刊上,显然他并不需要为自己在计算机技术方面的问题论证可靠性。这也是很多跨学科文章非常有意思的点你说他是否用了其他学科的东西,他确实用了。但是如果你用其他学科的标准要求,他他马上就会把自己的立场退回自己的本学科。认为自己是本学科的文章,只需要符合本学科的学术规范。而如果本学科的学术规范来要求他的时候。他又会说,我这是一篇跨学科的文章,有一些东西是超出原有学科规范的。从此立于不败之地。

当而计算机方面。也有很多类似的机器学习的论文。为了保证自己有一个看起来很不错的结果。对数据进行有针对性的清洗——为了自己的结果而凑出合适的数据。但是计算机的论文,特别是一些顶级期刊的论文,这些数据都是需要公开发布,并且可以复用的。但是显然我们不可能从这篇传播学论文中获取它对应的数据。

如同“小编这么看”的公众号级别内容

评论文本特征:热门词汇与表情符号

对全量评论文本进行清洗(去除“回复@[用户昵称]:”、表情符号、停用词及“李医生”、“李文亮”、“李大夫”等高频的基础称呼词)后进行词频统计发现:词频最高的10个词语依次为“一路走好”(91038次,在前100位高频词汇中占比6.3%)、“希望”(81655次)、“晚安”(74621次)、“英雄”(70246次)、“加油”(68718次)、“致敬”(53510次)、“天堂”(31509次)、“谢谢”(30630次)、“疫情”(25057次)和“世界”(24742次)。

这些东西都是非常搞笑的。就如果是在某个公众号或者是小编评论这种地方,看到磁云图或者类似的统计,我觉得很正常。他出现在一篇博士论文,还是国家社科重大基金的阶段性重构里面——我真的想笑。

image.png

所以在我看来,跨学科研究的学术成果。存在巨大的寻租空间。利用不同学科之间的漏洞。能帮很多人完成他们毕业和研究成果的需求。而至于里面有多少学术含金量?那恐怕只有天知道了。因为我跟一些人交流过,他们本人甚至认为自己的东西是相当有学术含金量的。甚至于他们的合作者都会同意这一点。