日報

人工智能成功預測特朗普勝選,是科學分析還是誤打誤撞?

這是它第四次正確預測美國大選結果,然而面對複雜的語境,人工智能的先知之路道阻且長。

端傳媒記者 張可

刊登於 2016-11-28

在不久前落幕的美國總統大選中,特朗普(Donald Trump)的意外獲勝讓幾乎所有民調機構顏面盡失,但人工智能(AI)卻做出「理性」的判斷:印度初創企業 Genic.AI 開發的 AI 系統 MogIA 在大選投票前預測,特朗普會獲得最終勝利。

2016年11月8日,美國密歇根州,特朗普在競選活動中演講。
特朗普在競選活動中演講。

在此之前,MogIA 就已正確預測自2004年開始的3屆美國總統大選結果。而這次,它總共從 Google、Facebook 和 Twitter 等社交平台收集了至少2000萬條數據信息,在進行分析後得出特朗普會獲勝的結論。

這一不同於傳統民調的方法同樣被學術界採用,美國東北大學政治學者 Nicholas Beauchamp 於9月發表論文,介紹他利用 AI 分析2012年大選前 Twitter 上1億條推文的方法,其分析結果與當年選情的吻合度極高。

不過,AI 在本次大選中的「理性判斷」或許是誤打誤撞的結果。Genic.AI 公司創始人 Sanjiv Rai 承認,AI 算法發展到如今,對「諷刺性」語句的識別能力仍然有限,因此社交媒體上的言論可能被 MogIA 系統誤讀。舉例來說,特朗普的社交帳號上一直都有大量的網民留言,但這並不代表這些網民都傾向於支持他,恰恰相反,留言中可能有大量來自反對者的諷刺。

那麼,AI 到底有沒有可能學會識別諷刺?美國史丹福大學助理教授 Noah Goodman 專長於心理學、電腦科學和語言學,他認為在讓 AI 學會識別諷刺之前,人類首先要十分清楚自己對諷刺的理解。Goodman 解釋,讓諷刺發揮作用的是它的語境,人類以過去的經歷和情感為諷刺構築了複雜的框架,但這對電腦來說是障礙,這種層次的信息輸入不是幾行代碼那麼簡單。

在給電腦編寫程式,讓它做一件很酷的事之前,你得先理解這件很酷的事是什麼。

史丹福大學 AI 研究者 Noah Goodman

比較詞語間的相關度,能認出諷刺嗎?

「女人需要男人,就像魚需要自行車一樣(A woman needs a man like a fish needs a bicycle)。」

澳洲社會活動家 Irina Dunn 於1970年寫下的這句話,後來成為女權運動的著名口號。任何一個正常受教育的人類都能毫不費力地理解這句話的諷刺意味:一條魚顯然不需要自行車,所以女人也不需要(依靠)男人。

對電腦而言,它們也許不能複製人類學習語言的過程,從而順利地理解上面那句話。但藉助先進的數學工具,研究人員卻可以讓算法識別部分諷刺表達,讓 AI 在通往「覺醒」之路上又向前一步。

印度理工學院孟買分校研究者 Aditya Joshi 等人在今年10月的一篇研究論文中稱,他們的方法能夠顯著提升電腦算法識別諷刺的能力。與傳統語義分析方法不同,他們依靠從 Google News 文章產生的海量詞彙數據庫,分析出不同詞語之間的「相關度」(即兩個詞在一句話裏同時出現的頻率),進而用於判斷一句話是否在諷刺。

「詞嵌入」(Word Embeddings)方法被用來計算詞語間的相關度:每一個詞都可以對應高維空間中的一個向量(Vector),兩個向量若離得越近,相關度也就越高。這樣的好處是,即使「男人」和「女人」的含義完全不同,電腦算法也可以知道,這兩個經常一起出現的詞相關度很高。

Joshi 等人提出這樣一個判據:一句話如果將相關度高的概念與相關度低的概念進行類比,那麼這句話很可能是在諷刺。比如,「男人」和「女人」的相關度很高,而「魚」和「自行車」的相關度很低,這說明 Dunn 的那句名言是在諷刺,Bingo!

這篇論文通過大量的測試證明,該方法在識別諷刺方面,比過去的算法有顯著改進。然而,如同你正在懷疑的那樣,這個算法並不完美。比如,算法沒有識別出這句話的諷刺意味:「哦,我猜是蘋果把芝士吃了。」因為按照算法的判斷規則,「蘋果」和「芝士」的相關度較高,但其他詞語之間並未出現相關度較低的情形,失敗!

民主黨支持者讚特朗普?那一定有問題

從單獨文本尋找信息,往往會遇到語境不足的問題,而電腦要真正理解一句話是否是諷刺,最好結合上下文的語境。

此外,同樣的一句話從不同人的嘴裏說出來,意思也可能完全不同。比如,特朗普的支持者和反對者分別用他的競選口號「讓美國再度偉大」(Make America great again)留言時,表達的含義就截然不同。

同一個標籤: MakeAmericaGreatAgain,支持者使用時的案例。
特朗普支持者使用 MakeAmericaGreatAgain 標籤的案例。

葡萄牙里斯本大學研究者 Silvio Amir 等人在7月的一篇研究論文中表示,要讓算法理解諷刺,單靠文本信息是不夠的,其中一個關鍵點是要理解發表這個言論的用戶本身。他們採用「用戶嵌入」(User Embeddings)方法來解決這一問題,與詞嵌入類似,用戶嵌入是為量化不同用戶之間的愛好、教育經歷等的相似度,「相似」的用戶在向量空間裏的距離也會越近。

這篇論文用政治傾向來舉例,如果用藍色圓點代表 Twitter 上關注美國民主黨政客的用戶,紅色圓點代表關注共和黨政客的用戶(同時關注兩黨的用戶不計算在內),分析後很容易看到,擁有類似政治傾向的用戶會聚集在向量空間的同一區域。論文提出,如果某個藍色用戶發表了「支持」特朗普的言論,那麼算法就可以判定,這則發言很可能具有諷刺意味。

研究人員稱,將這一方法與上下文語境分析結合起來,得到的實驗結果顯示,對諷刺判斷的準確率達到87%,比其他算法的準確率更高。此外,這一算法要求的人工配置和監測比其他方法要少,未來在針對社交媒體的研究方面大有可為。

AI 何時能拿到「聖杯」?還是根本不需要

Goodman 認為,這些 AI 系統雖然在識別諷刺方面有所建樹,但仍然處於初級階段,它們仍然沒有真正地懂得幽默。

研究人機交互的麻省理工學院副教授 Missy Cummings 也認為,如今的 AI 系統在理解清晰而明確的指令時仍有困難,更別說理解諷刺表達中的微妙差別了,掌握諷刺是 AI 領域的「聖杯」(Holy Grail)。

同一個標籤: MakeAmericaGreatAgain,特朗普反對者使用時的案例。
特朗普反對者使用 MakeAmericaGreatAgain 進行諷刺的案例。

她續指:「諷刺往往在於語氣或表情,而非詞彙,諷刺暗藏了許多非語言線索。」她認為 AI 離真正掌握諷刺還很遙遠,「在學術界,我認為至少需要20年的時間。」

Cummings 甚至認為,電腦程式設計師或許不是破解諷刺並將其轉化成代碼的最佳人選,他們可能還需要喜劇演員的幫助。她表示:「我們需要進一步思考,怎樣讓更多不同類型的研究人員參與其中進行合作。」

但喜劇演員 Keith Powell 表示,電腦根本不需要學習諷刺,因為「它們幾乎已經佔領了整個世界,很好地阻止了人類互動。我排隊等咖啡的時候,每個人都在看自己的手機。」

曾參與創建 Google X 實驗室無人車項目領導人 Sebastian Thrun 說:「我最不願意我的機械人做的事就是諷刺人,我希望它們實用而可靠,就像我家的洗碗機一樣。」

來源:MIT科技評論TechCrunch獨立報大西洋月刊

本刊載內容版權為端傳媒或相關單位所有,未經端傳媒編輯部授權,請勿轉載或複製,否則即為侵權。

延伸閱讀