不滿足於AI對抗人類，Google設計「囚徒困境」讓AI大戰AI！

刊登於 2017-02-13

Google把AI放入囚徒困境，測試他們會合作還是衝突。 — 有數據顯示，自2009年以來，人工智能已經吸引了超過170億美元的投資。

未來的人工智能（AI）時代對人類究竟會帶來怎樣的影響？當 AI 大幅介入人類生活，例如同時有兩輛 AI 汽車開往同一目的地，又或者兩個機器人控制的企業爭奪同一處資源，發生利益衝突時，他們會相互對抗抑或合作追求雙贏？

繼研發 AlphaGo 打敗各大圍棋棋王後，Google 旗下人工智能公司 DeepMind 最近就試驗了讓 AI 對抗 AI，結果發現，在追求最高勝算的目標下， AI 表現出了足夠靈活度，對抗與合作的情況都有發生。

DeepMind 在新研究中，測試 AI 如何在一系列可能要運用博弈論(game theory)的「社會困境」中，根據所處的環境及情況改變他們的行為模式。而最出名的實驗，就是模仿了知名的「囚徒困境」（prisoner's dilemma）。

囚徒困境

這是博弈論的非零和博弈中具代表性的例子，反映個人最佳選擇並非團體最佳選擇。在經典的囚徒困境中，兩名共謀的罪犯被分開審問，不得相互溝通。若兩人都不揭發對方，則因證據不足，每人都坐牢半年；若只有某一人認罪並供出同夥，便會立功而獲釋，而同夥則會因不合作警方被判刑10年；若兩人都互相檢舉，則因證據確鑿，皆判刑5年。也因為囚徒無法信任對方，此理論說明為何在合作對雙方都有利時，保持合作也是困難的。（資料來自維基百科及端傳媒整理，百科內容以 CC BY-SA 3.0 授權）

具體而言，DeepMind 團隊設計了兩款遊戲讓兩個 AI 系統競賽。第一款是名為“Gathering”的回合制收集蘋果比賽。玩家能以光束攻擊對方使其暫時消失，從而為自己爭取更多收集蘋果的時間。而第二款捕獵遊戲“Wolfpack”中，玩家則要在障礙物中尋找獵物來得分，但若對手抓到獵物時，另一名玩家剛好在附近，也能得分；而若只有一名玩家抓到獵物，則有被拾荒者搶走獵物的風險。

在 AI 在遊戲中進行了成千上萬次嘗試以學習「理性行事」後，研究人員發現，在同一遊戲中，AI 會根據不同情境相互合作或競爭。

例如在收集蘋果比賽中，若蘋果數量充足，則 AI 彼此相安無事，各自收集愈多蘋果愈好；但隨着蘋果數量減少，彼此攻擊的頻率便逐漸增加。有趣的是，若研究者提高某一 AI 的計算能力，則無論蘋果多寡，該 AI 的攻擊頻率也會大幅增加。

但研究團隊認為，這並不代表能力愈高的 AI 就愈有攻擊性。因為攻擊行為本身相當耗費運算資源，若投入過多，也會影響收集的蘋果數量。也就是說，AI 並非因為更聰明而更「自私」，他們的攻擊慾望其實與之前一樣，只不過計算能力不夠時，攻擊行為實在是得不償失。

同樣的結論也出現在捕獵的“Wolfpack”遊戲中，團隊發現運算能力愈高的 AI 彼此合作的機率也愈高。團隊解釋，在此遊戲中，合作行為需要使用更多運算資源，且由於獵物只有1個，對抗不能增加獲勝機會，因而愈有能力的 AI 愈傾向與對手合作。

DeepMind 團隊指出，這些實驗顯示 AI 會根據不同遊戲規則所影響的情境及風險，來改變自身行為；因此，未來可以透過制定合作共贏的規則，限制AI的行為模式。他們也表示，此實驗表明我們能將現代的 AI 多重人工智能學習技術運用到如「合作如何出現」等古老的社會科學問題中，也因而能讓人們更理解並掌握未來如經濟、交通系統、地球生態系等複雜的多重人工智能系統。

聲音

我認為現在評論它們的行為還太早了。讓 AI 競爭至少幾年，到那時我們才能看到更進化的行為。人們花了幾百年來進化成現在的狀態，我能說的是在我們得出結論前，給 AI 一點時間。
網友 gyan deep

我覺得設下「讓別人獲益」的規則，然後看看會發生什麼事也會很有趣。我在想他們會不會讓每個人都公平受益，或是努力地讓別人獲得好處，自己一點都不拿。
網友 Sc0rch3d

來源：Deep Mind、The Verge、IB Times、香港01

本刊載內容版權為端傳媒或相關單位所有，未經端傳媒編輯部授權，請勿轉載或複製，否則即為侵權。

不滿足於AI對抗人類，Google設計「囚徒困境」讓AI大戰AI！

囚徒困境

聲音

延伸閱讀

不是愚人節玩笑，日本公司任命一個AI為創意總監！

AI也有性別和種族歧視？都是被人類教壞的

機器學習新應用：Google兄弟公司Jigsaw將幫你擺脫網絡語言暴力

為消除人類對 AI 的恐慌，Google、Facebook等五大科技巨頭共組聯盟

人工智能還能指導客服人員如何優雅地給顧客打電話

AI 法官和人類法官斷案重合度高達79%，他們比人類更客觀嗎？

橫掃人類頂級棋手豪取60勝的Master公布真身：AlphaGo升級版！