![Google把AI放入囚徒困境,測試他們會合作還是衝突。](https://d32kak7w9u5ewj.cloudfront.net/media/image/2017/02/785a338edc914679ab60da851bd43f6a.jpg?imageView2/1/w/1080/h/720/format/jpg)
未來的人工智能(AI)時代對人類究竟會帶來怎樣的影響?當 AI 大幅介入人類生活,例如同時有兩輛 AI 汽車開往同一目的地,又或者兩個機器人控制的企業爭奪同一處資源,發生利益衝突時,他們會相互對抗抑或合作追求雙贏?
繼研發 AlphaGo 打敗各大圍棋棋王後,Google 旗下人工智能公司 DeepMind 最近就試驗了讓 AI 對抗 AI,結果發現,在追求最高勝算的目標下, AI 表現出了足夠靈活度,對抗與合作的情況都有發生。
DeepMind 在新研究中,測試 AI 如何在一系列可能要運用博弈論(game theory)的「社會困境」中,根據所處的環境及情況改變他們的行為模式。而最出名的實驗,就是模仿了知名的「囚徒困境」(prisoner's dilemma)。
囚徒困境
具體而言,DeepMind 團隊設計了兩款遊戲讓兩個 AI 系統競賽。第一款是名為“Gathering”的回合制收集蘋果比賽。玩家能以光束攻擊對方使其暫時消失,從而為自己爭取更多收集蘋果的時間。而第二款捕獵遊戲“Wolfpack”中,玩家則要在障礙物中尋找獵物來得分,但若對手抓到獵物時,另一名玩家剛好在附近,也能得分;而若只有一名玩家抓到獵物,則有被拾荒者搶走獵物的風險。
在 AI 在遊戲中進行了成千上萬次嘗試以學習「理性行事」後,研究人員發現,在同一遊戲中,AI 會根據不同情境相互合作或競爭。
例如在收集蘋果比賽中,若蘋果數量充足,則 AI 彼此相安無事,各自收集愈多蘋果愈好;但隨着蘋果數量減少,彼此攻擊的頻率便逐漸增加。有趣的是,若研究者提高某一 AI 的計算能力,則無論蘋果多寡,該 AI 的攻擊頻率也會大幅增加。
但研究團隊認為,這並不代表能力愈高的 AI 就愈有攻擊性。因為攻擊行為本身相當耗費運算資源,若投入過多,也會影響收集的蘋果數量。也就是說,AI 並非因為更聰明而更「自私」,他們的攻擊慾望其實與之前一樣,只不過計算能力不夠時,攻擊行為實在是得不償失。
同樣的結論也出現在捕獵的“Wolfpack”遊戲中,團隊發現運算能力愈高的 AI 彼此合作的機率也愈高。團隊解釋,在此遊戲中,合作行為需要使用更多運算資源,且由於獵物只有1個,對抗不能增加獲勝機會,因而愈有能力的 AI 愈傾向與對手合作。
DeepMind 團隊指出,這些實驗顯示 AI 會根據不同遊戲規則所影響的情境及風險,來改變自身行為;因此,未來可以透過制定合作共贏的規則,限制AI的行為模式。他們也表示,此實驗表明我們能將現代的 AI 多重人工智能學習技術運用到如「合作如何出現」等古老的社會科學問題中,也因而能讓人們更理解並掌握未來如經濟、交通系統、地球生態系等複雜的多重人工智能系統。
聲音
我認為現在評論它們的行為還太早了。讓 AI 競爭至少幾年,到那時我們才能看到更進化的行為。人們花了幾百年來進化成現在的狀態,我能說的是在我們得出結論前,給 AI 一點時間。
我覺得設下「讓別人獲益」的規則,然後看看會發生什麼事也會很有趣。我在想他們會不會讓每個人都公平受益,或是努力地讓別人獲得好處,自己一點都不拿。