端聞

AI也有性別和種族歧視?都是被人類教壞的


有研究指出AI正透過互聯網學習,也學會了人類的種族偏見。
有研究指出,AI 在進行機器學習的同時,也學會了人類社會固有的性別歧視和種族偏見。攝:AMELIE-BENOIST / BSIP via AFP

利用機器學習(Machine Learning)等數據處理方法,如今的人工智能(Artificial Intelligence,AI)程式已經可以模仿藝術大師畫畫為政客撰寫演講稿參與體育賽事報導,甚至擔任創意總監幫助醫學研究等。這一領域的領軍者 Google 旗下的 Deepmind 公司開發的 AlphaGo 程式更是力克人類頂級棋手,讓人工智能成為全球矚目的焦點,這一成果同樣離不開電腦對人腦創造出的數據「不知疲倦」的學習過程。

然而,越來越多的科學家發出警告指,AI 程式不僅學會了人類的知識和技能,它們同時也在學習人類的刻板印象(Stereotype)和偏見(Bias),甚至已經被「教育」成性別歧視者和種族主義者。

機器學習在日常生活中無處不在,這類算法已經應用於智能手機助理、圖片搜尋、餐廳推薦等等,它們依靠從海量數據中提取人類不可見的模式來分析信息。但是,當這些數據裏藴含了人類的社會偏見時,電腦程式也自然而然地學會了。

美國史丹福大學助理教授 James Zou

美國史丹福大學助理教授 James Zou 近日撰文指,機械學習算法就如同新生兒一般,人們讓它一口氣讀完幾百萬本書,而無須從字母、單詞和語法開始教學——這種「教學法」確實收到奇效,但同時也存在問題。

比如,在處理詞彙時,這類程式通常只考慮詞語之間的相關度,即不同的詞被同時提及的概率。Zou 舉例稱,其研究團隊利用 Google 新聞的數據訓練了一個 AI 程式,然後發出詢問「男人之於電腦工程師就如同女人之於什麼」,它快速地說出了答案:「家庭主婦」。在他們的測試中,這類帶有刻板印象的答案數不勝數。

AI 程式在涉及種族議題時同樣帶有「偏見」甚至「歧視」。普林斯頓大學科研團隊通過對詞彙分析 AI 程式 GloVe 的研究發現,該程式認為聽起來像白人的名字和「歡樂」、「平靜」等正面詞彙更接近,而聽起來像非裔人士的名字則和「苦惱」、「戰爭」等負面詞彙更接近。

科技專欄作家 Nathan Collins 撰文指,這些結果並不意味着 GloVe 或類似的 AI 程式天生就存在偏見,而是因為人類的文化和語言中有偏見。普林斯頓大學科學家也表示,AI 程式其實是「從顯示歷史不公正的訓練數據中,獲取到的有害偏見。」

可喜的是,這種缺陷有望通過技術手段得以彌補。微軟研究院與波士頓大學合作,利用「詞嵌入」(Word Embedding)技術讓程式通過尋找單詞之間的關係來處理語言,他們發現該方法能夠訓練程式忽略單詞之間的某些關聯。比如,他們的算法經過調整後,能夠去除「前台」和「女性」之間的關聯,但同時保留「女王」和「女性」的關聯。研究人員表示,這項研究的重要方向之一就是消除 AI 的偏見,並指出:「這是一項很微妙的工作,需要理解種族、民族和文化中的刻板印象產生的直接和間接的偏見。」

不過,在 AI 變得更智慧之前,類似算法中隱藏的偏見已經闖禍。MIT 科技評論指,美國聯邦調查局(FBI)和各地警方等執法部門高度依賴人臉識別(Face Recognition)技術來協助犯罪調查,但這項技術同樣有着「種族和性別歧視」——這些算法在識別女性、非裔人士和青少年時的準確率相對較低,原因就是訓練數據中沒有足夠的樣本來代表這幾類人。這一現狀導致執法部門在抓捕女性、非裔人士和青少年時更容易犯錯。

4
根據分析公司 Quid 的研究數據,在2015年,AI 企業的投資成本創下85億美元的記錄,這一數字大約為2010年的4倍。

聲音

人工智能有望改變我們的生活,它其實已經引導了我們的購物方式、約會方式、導航、投資甚至更多。為了確保它能做的更好,我們所有的從業者需要走出自我限制,變得更有包容性。我們需要對到底是什麼讓我們成為了人類保持敏鋭的意識,特別是微妙的、隱藏的東西。

Spare5 公司 CEO Matt Bencke

人們對現代科技持樂觀態度,部分原因在於大家相信這是一種民主化力量——不被人類長時間學到的狹隘偏見所限制。但是最新研究發現,這只是海市蜃樓般的假象……我們從周圍的世界學到偏見,AI 從我們身上學到偏見。

科技專欄作家 Nathan Collins

所有技術都會反映造物者的價值觀,假若我們沒有謹慎對待機器學習,那麼我們創造出來的人工智能就會變成社會的縮影,一個被隱藏無數偏見卻不自知的社會縮影。

品玩網編輯杜莉莉

機器學習

Machine Learning,是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與推斷統計學聯繫尤為密切,也被稱為統計學習理論。機器學習已廣泛應用於數據挖掘、計算機視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略遊戲和機械人等領域。(資料來自維基百科)

來源:The Conversation每日郵報Tech Crunch

2017 年 7 月,端傳媒啟動了對深度內容付費的會員機制。在此之前刊發的深度原創報導,都會免費開放,歡迎轉發,也期待你付費支持我們

如果你喜歡,就分享給更多人吧