評論特首選戰

李立峯:特首選舉網絡數據,是否可靠?如何閱讀?

慧科(Wisers)和《眾新聞》以詞庫為基礎,分析香港有關特首選舉的網絡內容,兩家機構的發現是否一致?是否可靠?如何閱讀?

刊登於 2017-03-03

#香港特首#2017香港特首選戰#香港

現時以林鄭月娥得到最多提名票參選特首。
現時以林鄭月娥得到最多提名票參選特首。

網絡世界存在着大量關於使用者言論和行為的資訊。除了政府及網絡公司會應用大數據外,「數據新聞」亦早已成為一個 buzzword。去年香港立法會選舉,不少香港傳媒就在數據新聞的範疇裏作了一些新嘗試。現在的特首選戰,亦有傳媒收集網絡數據進行報導,例如《香港01》追蹤網絡上各參選人的熱度,展示各參選人得到多少 “engagement”,《眾新聞》則與網絡科技公司 TAF Data 合作,監察主要參選人在網絡上得到多少正評和負評。從事中文內容供應業務,以新聞搜尋器 Wisenew 為人熟悉的慧科(Wisers),也推出了網站,展示有關各參選人網絡支持度的數據。

不少機構發展這些網絡數據分析工具和系統,是因為這些工具和系統的商業潛力。但若在商業運作之餘,能為社會及媒體提供跟公共事務討論相關的數據,讓大眾參考,也是好事。不過,有人可能會問,現在坊間出現的關於特首選舉的網絡數據,是否可靠?我們在解讀時應注意什麼?

挖掘和分析網絡數據的方法

既然幾個媒體和機構都公開了部分數據,筆者可以在這裏談一些初步的觀察和分析。首先,如果像《香港01》般,挖掘出來的數據主要是網絡上各種回應的數量,那麼數字的可靠性,應該是沒有什麼太大爭議,因為一個臉書粉絲頁出了多少帖文、有多少評論、多少個讚、多少個嬲(怒)或其他反應等,都是較客觀的數字。問題在於如何詮譯,因為我們知道,在社交媒體上給一個嬲,可以是對帖文的人表示憤怒,也可以是對帖文的內容表示憤怒。不過,若不計較內容展現的態度,關注度趨勢本身仍然是有其意義的。

固然,更複雜亦更有趣的,是嘗試把網絡內容分為正面或負面。基本上,到目前為止,對網絡內容進行所謂「情感分析」(sentiment analysis),都是透過文字用語來進行的。其中一種可能做法,是先以人手對一個樣本進行編碼,以然將文本及編碼結果讓機器學習,這種做法叫做 supervised machine learning。

另一種做法,也是現時慧科以及跟《眾新聞》合作的 TAF Data 的做法,是以詞庫為基礎。而若要以此方法進行分析,首先就要對一種語言有較全面的整理,了解什麼字眼在什麼情況下,表達的是正面還是負面想法,甚至是表達哪一種情感。在筆者所知的範圍中,嚴格來說我們仍未有一個全面、公開,可以用來做情感分析的(港式)廣東話詞庫。不過,慧科和 TAF Data 分別以大陸及台灣所建立的中文詞庫為起點,然後在過去一段長時間內加以調整,加入廣東話和香港的網絡用語,成為一個可嘗試在香港使用的詞庫。當用在今次特首選舉時,他們也有設法讓系統能夠因應當下場景和輿論的轉變,修正詞語的含意。

以兩間機構的詞庫為基礎來分析香港的網絡內容,準確度有多高,仍有待驗證。在近年的傳播學研究中,一些研究者會在依賴電腦為內容編碼之餘,再抽取樣本以人手編碼,既可以探討一些電腦編碼處理不了的問題,亦可以測試電腦編碼和人手編碼會出現多少差異。但這工作需要花上不少時間和資源。

如何比較不同機構數據?

不過,使用已經公開的數據結果,我們也可以看看兩個機構得出的發現是否相近。要做這個分析,要首先留意兩間機構所提供的結果,其實有點不一樣。慧科提供的,是每天在76個新聞媒體的 Facebook 專頁上,有關四名主要參選人的正面(以及負面)帖文及評論當中,每名參選人所佔比例是多少。那些百分比的每天變化可以很大。

例如1月19日,曾俊華正式宣布參選,慧科的結果,是曾俊華的正評佔所有參選人正評的比例,由1月18日的20.1%,飈升至1月19日的90.7%,但曾俊華的負評佔所有參選人負評的比例,也在同一天由5.6%升至61.4%。正負評比例均大幅上升。理由很簡單:因為當天他宣布參選,網絡新聞和評論都高度集中到他身上,讚的人很多,批評的也不少。

至於《眾新聞》,則以關於某一名參選人的網絡內容(包括多個社交媒體和論壇)為基礎,計算正面、負面,和中立的內容比例。當跟一名參選人相關的正評和負評數量一起上升時,也代表着跟那名參選人相關的正評與負評之間的比例,未必有大變化。事實上,在《眾新聞》的數據中,1月18日有關曾俊華的內容,29.1%是正評,27.3%是負評;1月19日,32.8%是正評,27.0%是負評。換句話說,在《眾新聞》的結果中,1月18日和1月19日的變化不大。《眾新聞》和慧科的數據表面上頗不一樣,但其實沒有矛盾。兩者的差異主要在數據的計算和表達方式。

因此,要比較兩個機構提供的數據,就要做一些計算和調整。筆者嘗試以慧科的數字為基礎,然後從《眾新聞》的數據中整理出較直接可比的數字。具體地說,圖一的橙色線顯示的,是慧科提供,在1月1日至2月18日之間,以所有候選人正評為基數的曾俊華正評百分比。從《眾新聞》的數據中要整理出這個數字,方程式如下:

(曾俊華正評比例X曾俊華評論總數)/(曾俊華正評比例X曾俊華評論總數+林鄭月娥正評比例X林鄭月娥評論總數+葉劉淑儀正評比例X葉劉淑儀評論總數+胡國興正評比例X胡國興評論總數)

在以上算式中,分子是曾俊華的正評數量,分母是四名參選人加起來的正評數量,所以得出的結果,就是以所有候選人正評為基數的曾俊華正評百分比(註一)。由於《眾新聞》網站沒有提供每名參選人每天的相關評論總數,筆者用上《香港01》所記錄的,每名參選人每天的「網上熱度」來代替。圖一的紫色線代表了這計算得出的結果。由於筆者執筆時,《眾新聞》的數據只到2月24日,而《香港01》的數據則由1月3日開始,所以圖一的紫色線只從1月3日至2月24日。

圖一。
圖一。

若單以目測的話,兩條線在一定程度上是同起同落的。兩組數據在1月11日至1月31日之間的走勢尤其接近。但2月8日至13日左右的幾天,以及在1月5日及1月11日之間,兩組數據則看來有較明乙顯差異。整體而言,兩條線在統計上的相關系數是0.57。

用同樣方法,下面圖二顯示了從慧科和《眾新聞》所得,以所有候選人負評為基數的曾俊華負評百分比。相比圖一,兩組數據顯示的趨勢更加貼近對方,兩條線的相關系數是0.78。

圖二。
圖二。

不過,慧科和《眾新聞》並不是在所有參選人的數據上,都顯示同等地高的相關性。例如圖三顯示的是從慧科和《眾新聞》所得,以所有候選人正評為基數的葉劉淑儀正評百分比。兩條線的相關系數是0.24,相關程度較低。

圖三。
圖三。

下面的表一總括了《眾新聞》及慧科數據的相關程度。從數字可見,在曾俊華和林鄭月娥的正負評比例上,兩組數據的每天變化相關程度較高。亦即是說,兩個機構顯示的結果一致性較高。但在葉劉淑儀的正評比例和胡國興的正負評比例上,兩組數據的每天變化相關程度較低,亦即是說,兩個機構顯示的結果一致性較低。

表一。
表一。

數據不一致的可能原因

造成兩組數據不一致的原因可以有很多。兩個機構在詞庫和方法細節上有不一樣的地方,自然是差異來源之一。筆者亦相信,兩個機構的數據分析系統仍有不完美的地方,誤差難以避免。另外,值得指出的是,在表一中,相關系數較高的是關於兩位最多人談論的熱門參選人曾俊華及林鄭月娥的數據。這似乎顯示,網絡上跟一位人物有關的文本和數據越多,兩個機構得出的結果也越一致,這也合乎一般對大數據分析的理解,就是數據越多,通常就越準確。

不過也要強調的是,當兩個機構得出的數據不一樣時,不等於數據一定有問題。慧科集中關注76個新聞媒體的臉書專頁,而《眾新聞》則覆蓋多個社交媒體和論壇。所以,如果數據不一致,也有可能是因為在新聞媒體臉書專頁上的討論,跟在更廣大的網絡世界裏的討論,確實存在差異。新聞媒體的議程設定和網絡討論的議程設定,並不百分之百相同,兩者會互相影響對方,但有時可能會花上一點時間,令兩者並非完全同步。

以上只是很初步的分析,從目前結果看,兩個機構得出的數據,至少有部分有一定程度的可靠性。相比之下,哪個機構的數字較準確,無從判斷,而且兩個系統的分析範圍及能得出的資訊不完全一樣。哪個系統更佳,一定程度上是視乎用者的需求而已。

當然,我們在閱讀數據時也要小心。除了不要忘記誤差無可避免地存在之外,對一些數據的解讀,要配合機構所用方法的細節。例如上面已經提到,慧科提供的數字是以所有參選人的正評或負評總數為基礎,計出每名參選人所佔的正評或負評百分比。這些數字在每一天之間的變化可以很大,因為一件事件發生,可以使一名參選人成為當天焦點,這樣,該名參選人的正評和負評比例很可能會同時上升。事實上,在慧科的數據中,一名參選人的正評百分比和負評百分比,是正相關的,即該候選人某一天正評百分比高一點,其負評百分比也傾向高一點。

另外,在慧科所設置的網站中顯示,每日有明確表態的帖文及留言量,相比每日沒有明確表態的,比例看來很低,在個別日子更似乎不足一成。但《眾新聞》的數據中,中立內容的比例是頗低的。中立內容比例的差異,可能部分源於兩個機構所用詞庫不一樣,部分在於分析過程中的一些細節(如《眾新聞》的系統會將部分被評為中立的內容再進一步分析,根據同温層原理判斷內容屬正面或負面)。同時,中立內容比例的差異,也應該部分地源自慧科集中關注76個新聞媒體的專頁。新聞媒體始終有專業規範,所以其專頁裏的內容甚至網民在專頁上的反應,沒有明確表態的比例較高,也許可以理解。

林鄭網上支持度低?

無論如何,將不同機構的數據合併來看,我們可以對某些問題有較全面的了解。例如特首選舉到目前為止,不少人的印象是林鄭月娥在網上的支持度頗低。無論是八達通或廁紙事件,抑或是情人節的「情書公關大戰」,好像都劣評如潮。但過去兩年,大家也開始明白網絡迴音廊的問題,你以為網絡世界中人人都有某種想法,可能只代表你在網上能接觸到的人都有那種想法而已。若我們看全面的網絡數據,結果如何?

《眾新聞》的數據顯示,從1月初到2月下旬,林鄭月娥的網絡負評比例一直維持在六成和八成之間,正評比例只在5%至25%不等。曾俊華的網絡正評則從1月初的兩成左右升至2月下旬的約五成半,負評則在同期由三成多下降至兩成。這些數字似乎印證了很多人的觀感:曾俊華在網上遠較林鄭受歡迎,而且支持度拾級而上。但若看慧科的數據,如果單以林鄭月娥的正評量跟曾俊華的正評量相比,林鄭月娥並不算輸太多。林鄭月娥和曾俊華的分別,是林鄭的網上負評比曾俊華的網上負評多很多。此外,慧科的數據亦顯示,若只看建制派的媒體專頁,林鄭月娥佔所有正評的百分比超過七成,曾俊華只得不足一成。

一些不少人以為曾為林鄭月娥帶來大量網上負評的事件,若看兩個機構的數據,其實並不盡然。例如2月3日林鄭的誓師大會,在很多網媒上都是劣評如潮,從口號到形式到內容到衣著化妝,都有人批評,但《眾新聞》的數據顯示,跟林鄭月娥有關的評論,負評和正評比例在2月2日是76.8%和14.4%,2月3日是73.7%和16.5%,2月4日是71.8%和17.6%,負評的確一直佔大多數,但在那兩天,正評比例是上升而不是下降的。

總括來說,雖然網絡言論在整體上的確以反對林鄭月娥的居多,但其實支持林鄭的言論,數量本身也絕對不少,它們傾向集中在某些建制派的網絡空間中出現。由於這種空間分隔,個別事件對正負評比例的影響,其實可以非常之小,甚至可以跟人們以為的相反。在今天的香港,政治態度的分界線,並不是在傳統主流傳媒和「網媒」之間,因為建制陣營已經建立了自己的網絡地盤。建制派的網絡地盤也許影響不了民主派的支持者,但它絕對有可能維護和鞏固自己的支持者的態度。

分析網絡輿情,對商業和公營機構都變得越來越重要,對傳媒和學術界也很有用。筆者樂見不同機構作出嘗試,有不同的數據來源,大家也可以查核數據的可靠度,以及從不同角度看同一現象。同時,筆者亦希望機構能提供更多有關具體算法和數據可靠度的資料,讓公眾更能判斷應如何解讀結果。

(李立峯,香港中文大學新聞與傳播學院教授)

註一:慧科並沒有提供有關梁國雄及其他宣佈了參選特首選舉的人士的數據,所以本文的分析只限於四名參選人。

本刊載內容版權為端傳媒或相關單位所有,未經端傳媒編輯部授權,請勿轉載或複製,否則即為侵權。

延伸閱讀