深度 評論

傅景華:AI面前,是否人人平等?

平心而論,以收集大型數據配合自動處理系統為手段,把人進行社會分類為目的,再向各類型民眾施以不同待遇,這些都並非中國首創。那麼,要如何走出所謂是否「妖魔化」的討論?


電腦跑出來的估算並不能孤立地稱之為「中立」,當中呈現和強化既定的歧視。 攝:VCG via Getty Images
電腦跑出來的估算並不能孤立地稱之為「中立」,當中呈現和強化既定的歧視。 攝:VCG via Getty Images

筆者兩周內一口氣在歐洲跑了五個城市,披星帶月的穿梭大小學院,開了五場以中國網絡訊息控制為題的講座,由微博/微信的審查制度,談到中國網絡管理政策的全球性延伸,和應者眾。演說引用的眾多材料中,論台下聽眾反應最熱烈者,當數觸及有關中國「社會信用體系」的時侯,大家很不其然地想起西方媒體過去半年一連串以特定框架的報導——那種套入「21世紀化」歐威爾《一九八四》框架的視角;聽眾對這個威權社會運用人工智能進行社會操控和打壓的課題,尤其是有關信用評分如何影響異見人士的日常生活、外地訪客會否被打分等等問題,大感興趣。

或許有人會指責這類是對中國存有偏見的「妖魔化」描述,沒有考慮中國國情和體制不同,由於社會缺乏具公信的第三方信用機制,官商民間長年在沒有互信基礎下互動,所以才需要借用「客觀」的大數據和人工智能來建立一套巨細無遺的信用系統,以制定指標供各方參考。

平心而論,以收集大型數據配合自動處理系統為手段,把人進行社會分類為目的,再向各類型民眾施以不同待遇,這些都並非中國首創。美國政治學者Virginia Eubanks去年發表的Automating Inequality: How High-Tech Tools Profile, Police, and Punish the Poor一書中指出,美國不少州份早已將審批社會服務自動化,運用電腦運算技術取代由社工決定申請獲批與否;新系統推出後曾令大批有需要使用醫療、生活津貼和食物券的美國人提交的申請被拒。還有另一個例子,2014緬因州州長為推行收緊公共援助的政策,利用大數據挖掘技術(data mining),查出部分生活津貼受益人在售賣煙酒商店設置的櫃員機的提款紀錄,及後高調公開資料,藉此引導公眾認為有人或濫用公共援助。

另一美國法律學者Andrew Guthrie Ferguson去年發表的書The Rise of Big Data Policing: Surveillance, Race, and the Future of Law Enforcement中亦指出,美國執法機構已經大量應用大數據和人工智能技術,透過挖掘人口資料和犯罪個案的歷史數據,得出不同社區的犯罪風險評估,藉此以數據估算應當在各個地方佈設的警力。不過,這些歷史數據本身已反映了現實世界的不公平和偏見,當警方佈置更多的警力,破更多的罪案時,結果便推高當地犯罪率,形成惡性循環。所以,電腦跑出來的估算並不能孤立地稱之為「中立」,當中呈現和強化既定(特別對有色人種)的歧視。

人工智能歧視,非數據量可解決

因此,要走出所謂是否「妖魔化」的討論,當我們思考人工智能結合大數據技術進行社會分類(不論是中國式還是美國式)的影響時,除了要問究竟政府(或企業)收集和整合的數據是否侵犯了個人最基本的私隱,會否改變我們日常生活的秩序之外,我們還要問電腦是怎麼透過運演算法(algorithm)跑出分析數據的結果,怎樣去理解結果,與及結果是否呈現和強化對某些群體的不公平,會否出現人工智能的歧視?

試舉一個例。如果政府推出反罪案政策,以一個超級GPU電腦用深度學習演算法,分析多年來各地所有犯案歷史紀錄的大數據,跑出高達99%準確率(accuracy)的估算模型(predictive model)。看上來非常完備,但若真的將之應用在估算未來的犯罪風險,這是否就合符公義?

我們不禁要問:

樣本中有多少是罪犯,多少是好人?如果好人佔了樣本99.99%的話,算出的準確率是否誤導?

如果99%估算是準確,那麼餘下錯誤的1%,會否集中在某些具特定特性的群體呢?換言之,當模型估算具某些特質的人時,會否特別容易出錯呢?

究竟所謂99%估算準確是指什麼呢?多少是成功預計到誰是壞人(true positive)?多少是成功區別沒有犯罪的人(true negative)?

那麼在這1%錯誤中,有多少結果是「好人當賊扮」(false negative),有多少是「壞人當好人」(false positive)?

以第一個問題為例,我們就會發現愈來愈難回答,尤其是當使用日趨複雜的腦神經網絡或深度學習,製造出難以跟人類思考模式一致的估算模型,也回答不了任何有關「為什麼」的問題,解釋不到結果。無論結果是準確還是不準確,同樣不容易了解,我們一般只能當它為一個「黑盒」,模型裏賣什麼藥出來,沒有簡單方法找出導致結果的因素。

走筆至此,讀Forbes最新專欄文章,作者就提出同樣問題,質疑Facebook近日公布用演算法刪除恐怖份子內容的結果,頗值大家一讀。

許多人認為只要數據足夠的大,就有代表性,便能消除偏見,但這樣理解就大錯特錯。據一項研究結果顯示,研究員分析Google News的內容,分析詞彙跟詞彙間的關連,發現有男性意思的詞彙較大機會與工程師或科學家有關係,相反女性意思的詞彙會特別大機會出現與護士或教師相關。換言之,若深度學習模型以Google News為培訓樣本的話,不論數據量有多大,訓練出來的模型便「反映」了既定的性別偏見,進一步強化社會不公。

學界和專業界愈來愈重視這個問題,差不多成為研討會必談課題,但最低限度筆者還未見到有任何突破性的發展。歐洲議會去年發表一份報告,將演算法/人工智能放在人權的框架內討論,提出了一連串的問題,是重要的發展方向,值得仔細討論,在烏托邦派(人工智能改變世界?)和末世派(Big Data and Big Brother?)以外,為公眾提供多一個視野。在中港台不斷倡議智能城市的同時,有否停下來想一想,大家在塑造一個什麼樣的世界?

(傅景華,香港大學新聞及傳媒研究中心副教授)

觸摸世界的政經脈搏
你觀察時代的可靠伙伴

已是端會員?請 登入賬號

端傳媒
深度時政報導

華爾街日報
實時財訊

全球端會員
智識社群

每週精選
專題推送

了解更多
傅景華 評論 探索學院