评论特首选战

李立峰:特首选举网络数据,是否可靠?如何阅读?

慧科(Wisers)和《众新闻》以词库为基础,分析香港有关特首选举的网络内容,两家机构的发现是否一致?是否可靠?如何阅读?

刊登于 2017-03-03

#香港特首#2017香港特首选战#香港

现时以林郑月娥得到最多提名票参选特首。
现时以林郑月娥得到最多提名票参选特首。

网络世界存在着大量关于使用者言论和行为的资讯。除了政府及网络公司会应用大数据外,“数据新闻”亦早已成为一个 buzzword。去年香港立法会选举,不少香港传媒就在数据新闻的范畴里作了一些新尝试。现在的特首选战,亦有传媒收集网络数据进行报导,例如《香港01》追踪网络上各参选人的热度,展示各参选人得到多少 “engagement”,《众新闻》则与网络科技公司 TAF Data 合作,监察主要参选人在网络上得到多少正评和负评。从事中文内容供应业务,以新闻搜寻器 Wisenew 为人熟悉的慧科(Wisers),也推出了网站,展示有关各参选人网络支持度的数据。

不少机构发展这些网络数据分析工具和系统,是因为这些工具和系统的商业潜力。但若在商业运作之余,能为社会及媒体提供跟公共事务讨论相关的数据,让大众参考,也是好事。不过,有人可能会问,现在坊间出现的关于特首选举的网络数据,是否可靠?我们在解读时应注意什么?

挖掘和分析网络数据的方法

既然几个媒体和机构都公开了部分数据,笔者可以在这里谈一些初步的观察和分析。首先,如果像《香港01》般,挖掘出来的数据主要是网络上各种回应的数量,那么数字的可靠性,应该是没有什么太大争议,因为一个脸书粉丝页出了多少帖文、有多少评论、多少个赞、多少个嬲(怒)或其他反应等,都是较客观的数字。问题在于如何诠译,因为我们知道,在社交媒体上给一个嬲,可以是对帖文的人表示愤怒,也可以是对帖文的内容表示愤怒。不过,若不计较内容展现的态度,关注度趋势本身仍然是有其意义的。

固然,更复杂亦更有趣的,是尝试把网络内容分为正面或负面。基本上,到目前为止,对网络内容进行所谓“情感分析”(sentiment analysis),都是透过文字用语来进行的。其中一种可能做法,是先以人手对一个样本进行编码,以然将文本及编码结果让机器学习,这种做法叫做 supervised machine learning。

另一种做法,也是现时慧科以及跟《众新闻》合作的 TAF Data 的做法,是以词库为基础。而若要以此方法进行分析,首先就要对一种语言有较全面的整理,了解什么字眼在什么情况下,表达的是正面还是负面想法,甚至是表达哪一种情感。在笔者所知的范围中,严格来说我们仍未有一个全面、公开,可以用来做情感分析的(港式)广东话词库。不过,慧科和 TAF Data 分别以大陆及台湾所建立的中文词库为起点,然后在过去一段长时间内加以调整,加入广东话和香港的网络用语,成为一个可尝试在香港使用的词库。当用在今次特首选举时,他们也有设法让系统能够因应当下场景和舆论的转变,修正词语的含意。

以两间机构的词库为基础来分析香港的网络内容,准确度有多高,仍有待验证。在近年的传播学研究中,一些研究者会在依赖电脑为内容编码之余,再抽取样本以人手编码,既可以探讨一些电脑编码处理不了的问题,亦可以测试电脑编码和人手编码会出现多少差异。但这工作需要花上不少时间和资源。

如何比较不同机构数据?

不过,使用已经公开的数据结果,我们也可以看看两个机构得出的发现是否相近。要做这个分析,要首先留意两间机构所提供的结果,其实有点不一样。慧科提供的,是每天在76个新闻媒体的 Facebook 专页上,有关四名主要参选人的正面(以及负面)帖文及评论当中,每名参选人所占比例是多少。那些百分比的每天变化可以很大。

例如1月19日,曾俊华正式宣布参选,慧科的结果,是曾俊华的正评占所有参选人正评的比例,由1月18日的20.1%,飚升至1月19日的90.7%,但曾俊华的负评占所有参选人负评的比例,也在同一天由5.6%升至61.4%。正负评比例均大幅上升。理由很简单:因为当天他宣布参选,网络新闻和评论都高度集中到他身上,赞的人很多,批评的也不少。

至于《众新闻》,则以关于某一名参选人的网络内容(包括多个社交媒体和论坛)为基础,计算正面、负面,和中立的内容比例。当跟一名参选人相关的正评和负评数量一起上升时,也代表着跟那名参选人相关的正评与负评之间的比例,未必有大变化。事实上,在《众新闻》的数据中,1月18日有关曾俊华的内容,29.1%是正评,27.3%是负评;1月19日,32.8%是正评,27.0%是负评。换句话说,在《众新闻》的结果中,1月18日和1月19日的变化不大。《众新闻》和慧科的数据表面上颇不一样,但其实没有矛盾。两者的差异主要在数据的计算和表达方式。

因此,要比较两个机构提供的数据,就要做一些计算和调整。笔者尝试以慧科的数字为基础,然后从《众新闻》的数据中整理出较直接可比的数字。具体地说,图一的橙色线显示的,是慧科提供,在1月1日至2月18日之间,以所有候选人正评为基数的曾俊华正评百分比。从《众新闻》的数据中要整理出这个数字,方程序如下:

(曾俊华正评比例X曾俊华评论总数)/(曾俊华正评比例X曾俊华评论总数+林郑月娥正评比例X林郑月娥评论总数+叶刘淑仪正评比例X叶刘淑仪评论总数+胡国兴正评比例X胡国兴评论总数)

在以上算式中,分子是曾俊华的正评数量,分母是四名参选人加起来的正评数量,所以得出的结果,就是以所有候选人正评为基数的曾俊华正评百分比(注一)。由于《众新闻》网站没有提供每名参选人每天的相关评论总数,笔者用上《香港01》所记录的,每名参选人每天的“网上热度”来代替。图一的紫色线代表了这计算得出的结果。由于笔者执笔时,《众新闻》的数据只到2月24日,而《香港01》的数据则由1月3日开始,所以图一的紫色线只从1月3日至2月24日。

图一。
图一。

若单以目测的话,两条线在一定程度上是同起同落的。两组数据在1月11日至1月31日之间的走势尤其接近。但2月8日至13日左右的几天,以及在1月5日及1月11日之间,两组数据则看来有较明显差异。整体而言,两条线在统计上的相关系数是0.57。

用同样方法,下面图二显示了从慧科和《众新闻》所得,以所有候选人负评为基数的曾俊华负评百分比。相比图一,两组数据显示的趋势更加贴近对方,两条线的相关系数是0.78。

图二。
图二。

不过,慧科和《众新闻》并不是在所有参选人的数据上,都显示同等地高的相关性。例如图三显示的是从慧科和《众新闻》所得,以所有候选人正评为基数的叶刘淑仪正评百分比。两条线的相关系数是0.24,相关程度较低。

图三。
图三。

下面的表一总括了《众新闻》及慧科数据的相关程度。从数字可见,在曾俊华和林郑月娥的正负评比例上,两组数据的每天变化相关程度较高。亦即是说,两个机构显示的结果一致性较高。但在叶刘淑仪的正评比例和胡国兴的正负评比例上,两组数据的每天变化相关程度较低,亦即是说,两个机构显示的结果一致性较低。

表一。
表一。

数据不一致的可能原因

造成两组数据不一致的原因可以有很多。两个机构在词库和方法细节上有不一样的地方,自然是差异来源之一。笔者亦相信,两个机构的数据分析系统仍有不完美的地方,误差难以避免。另外,值得指出的是,在表一中,相关系数较高的是关于两位最多人谈论的热门参选人曾俊华及林郑月娥的数据。这似乎显示,网络上跟一位人物有关的文本和数据越多,两个机构得出的结果也越一致,这也合乎一般对大数据分析的理解,就是数据越多,通常就越准确。

不过也要强调的是,当两个机构得出的数据不一样时,不等于数据一定有问题。慧科集中关注76个新闻媒体的脸书专页,而《众新闻》则覆盖多个社交媒体和论坛。所以,如果数据不一致,也有可能是因为在新闻媒体脸书专页上的讨论,跟在更广大的网络世界里的讨论,确实存在差异。新闻媒体的议程设定和网络讨论的议程设定,并不百分之百相同,两者会互相影响对方,但有时可能会花上一点时间,令两者并非完全同步。

以上只是很初步的分析,从目前结果看,两个机构得出的数据,至少有部分有一定程度的可靠性。相比之下,哪个机构的数字较准确,无从判断,而且两个系统的分析范围及能得出的资讯不完全一样。哪个系统更佳,一定程度上是视乎用者的需求而已。

当然,我们在阅读数据时也要小心。除了不要忘记误差无可避免地存在之外,对一些数据的解读,要配合机构所用方法的细节。例如上面已经提到,慧科提供的数字是以所有参选人的正评或负评总数为基础,计出每名参选人所占的正评或负评百分比。这些数字在每一天之间的变化可以很大,因为一件事件发生,可以使一名参选人成为当天焦点,这样,该名参选人的正评和负评比例很可能会同时上升。事实上,在慧科的数据中,一名参选人的正评百分比和负评百分比,是正相关的,即该候选人某一天正评百分比高一点,其负评百分比也倾向高一点。

另外,在慧科所设置的网站中显示,每日有明确表态的帖文及留言量,相比每日没有明确表态的,比例看来很低,在个别日子更似乎不足一成。但《众新闻》的数据中,中立内容的比例是颇低的。中立内容比例的差异,可能部分源于两个机构所用词库不一样,部分在于分析过程中的一些细节(如《众新闻》的系统会将部分被评为中立的内容再进一步分析,根据同温层原理判断内容属正面或负面)。同时,中立内容比例的差异,也应该部分地源自慧科集中关注76个新闻媒体的专页。新闻媒体始终有专业规范,所以其专页里的内容甚至网民在专页上的反应,没有明确表态的比例较高,也许可以理解。

林郑网上支持度低?

无论如何,将不同机构的数据合并来看,我们可以对某些问题有较全面的了解。例如特首选举到目前为止,不少人的印象是林郑月娥在网上的支持度颇低。无论是八达通或厕纸事件,抑或是情人节的“情书公关大战”,好像都劣评如潮。但过去两年,大家也开始明白网络回音廊的问题,你以为网络世界中人人都有某种想法,可能只代表你在网上能接触到的人都有那种想法而已。若我们看全面的网络数据,结果如何?

《众新闻》的数据显示,从1月初到2月下旬,林郑月娥的网络负评比例一直维持在六成和八成之间,正评比例只在5%至25%不等。曾俊华的网络正评则从1月初的两成左右升至2月下旬的约五成半,负评则在同期由三成多下降至两成。这些数字似乎印证了很多人的观感:曾俊华在网上远较林郑受欢迎,而且支持度拾级而上。但若看慧科的数据,如果单以林郑月娥的正评量跟曾俊华的正评量相比,林郑月娥并不算输太多。林郑月娥和曾俊华的分别,是林郑的网上负评比曾俊华的网上负评多很多。此外,慧科的数据亦显示,若只看建制派的媒体专页,林郑月娥占所有正评的百分比超过七成,曾俊华只得不足一成。

一些不少人以为曾为林郑月娥带来大量网上负评的事件,若看两个机构的数据,其实并不尽然。例如2月3日林郑的誓师大会,在很多网媒上都是劣评如潮,从口号到形式到内容到衣著化妆,都有人批评,但《众新闻》的数据显示,跟林郑月娥有关的评论,负评和正评比例在2月2日是76.8%和14.4%,2月3日是73.7%和16.5%,2月4日是71.8%和17.6%,负评的确一直占大多数,但在那两天,正评比例是上升而不是下降的。

总括来说,虽然网络言论在整体上的确以反对林郑月娥的居多,但其实支持林郑的言论,数量本身也绝对不少,它们倾向集中在某些建制派的网络空间中出现。由于这种空间分隔,个别事件对正负评比例的影响,其实可以非常之小,甚至可以跟人们以为的相反。在今天的香港,政治态度的分界线,并不是在传统主流传媒和“网媒”之间,因为建制阵营已经建立了自己的网络地盘。建制派的网络地盘也许影响不了民主派的支持者,但它绝对有可能维护和巩固自己的支持者的态度。

分析网络舆情,对商业和公营机构都变得越来越重要,对传媒和学术界也很有用。笔者乐见不同机构作出尝试,有不同的数据来源,大家也可以查核数据的可靠度,以及从不同角度看同一现象。同时,笔者亦希望机构能提供更多有关具体算法和数据可靠度的资料,让公众更能判断应如何解读结果。

(李立峰,香港中文大学新闻与传播学院教授)

注一:慧科并没有提供有关梁国雄及其他宣布了参选特首选举的人士的数据,所以本文的分析只限于四名参选人。

本刊载内容版权为端传媒或相关单位所有,未经端传媒编辑部授权,请勿转载或复制,否则即为侵权。

延伸阅读