陳自富:先敗李世石再挫柯潔,AI為何對棋手窮追猛打?

戰勝李世石之後,Google 從商業角度而言,在人工智能產業內已經如日中天,再舉行這樣一次人機大戰的意義何在?


圍棋人工智能AlphaGo 與世界排名第一的柯潔九段展開三番棋對弈,而第一場柯潔就以四分一子僅敗。
圍棋人工智能AlphaGo 與世界排名第一的柯潔九段展開三番棋對弈,而第一場柯潔就以四分一子僅敗。攝:Stringer/Reuters

5月23日,Google 的圍棋程式 AlphaGo 在以4:1戰勝南韓圍棋國手李世石1年多以後,再次來到圍棋的發源地中國,挑戰當今世界等級分排名第一的年輕棋手柯潔。而在五個多月之前,AlphaGo 已在幾大圍棋對弈網站上用 "Master" 的帳號,在30秒1手的網棋(其中挑戰棋聖聶衞平的1局採用1分鐘1手)中,以60連勝的戰績碾壓其挑戰的全部職業高手。

與網棋不同的是,此次 AlphaGo 在浙江烏鎮與柯潔的比賽採取每方用時三小時、五次一分鐘讀秒的慢棋,共比賽三局。如果柯潔贏兩局戰勝 AlphaGo,將獲得高達150萬美元的獎金,否則只有30萬美元的出場費。這次新的人機大戰,圍棋界雖然在 AlphaGo 戰勝李世石之後對電腦圍棋進行了更多研究,但仍然普遍持有悲觀態度,中國著名圍棋國手古力甚至預測柯潔三盤棋當中贏一盤的概率只有10%。

既然明知是一場實力懸殊的賽事,為何 Google 仍然如此重視?戰勝李世石之後,Google 從商業角度而言,在人工智能產業內已經如日中天,再舉行這樣一次人機大戰的意義何在?

電腦界一直醉心博弈遊戲

我們當然可以從外部的原因去揣度,例如圍棋是亞洲流行的博弈遊戲,Google 可以藉此擴大其在亞洲的影響和提升品牌。但是包括 Facebook、騰訊等多家國內外的知名互聯網公司在最近一年多也涉足這個領域,騰訊 AI 實驗室研發的「絕藝」更是在今年3月奪得 UEC 杯世界電腦圍棋大會冠軍,在網絡上具備了與職業九段對抗的實力。而人工智能學術界早在1974年就舉辦了世界電腦象棋錦標賽,1977年成立了國際電腦西洋象棋協會,並於2002年更名為國際電腦對局協會(ICGA:International Computer Game Association),該協會不僅每個季度出版電腦博弈領域的權威學術刊物 ICGA 會刊,而且還接管了從1992年開始的奧林匹亞電腦遊戲程式競賽(Computer Olympiad),該大賽已經主辦了19屆,僅限電腦遊戲程式參賽,比賽項目包括角力棋、西洋雙陸棋、中國象棋、圍棋、中國象棋盲棋、橋牌等世界各地流行的17種棋牌遊戲。顯然人工智能界對遊戲的愛好由來已久,即使沒有 Google 的 AlphaGo,這麼多年來科學家對於開發強大的電腦遊戲程式,一直是樂在其中。

我們再追溯人工智能和電腦的發展歷史,從電腦的先驅巴貝奇(Charles Babbage)開始到德國人楚澤(Konrad Zuse),都設想過用電腦來完成象棋對弈這樣不是傳統計算範圍之內的智力任務。二戰後控制論、資訊論的奠基人維納(Norbert Wiener)和香農(Claude Shannon),以及電腦科學的主要奠基人馮·諾依曼(John von Neumann)、圖靈(Alan Turing),都對電腦博弈尤其是國際象棋有着濃厚興趣。維納在其名著《控制論》中描述了一個帶局勢評價函數的象棋程序,香農發表了電腦編程下棋的論文,而圖靈甚至用紙和筆手寫開發了一個象棋程序。人工智能學科的主要奠基人司馬賀(Herbert Alexander Simon,赫伯特·西蒙)和艾倫·紐厄爾(Allen Newell),在50年代中期也開發了象棋對弈程序,IBM 在50年代的人工智能研究中,就已經開始研究博弈遊戲(塞繆爾的西洋跳棋、伯恩斯坦的國際象棋)。

為超越人類智能累積經驗

人工智能領域如此喜歡挑戰博弈遊戲不是沒有道理的,主要有以下幾方面的原因:

一、西方文化中的理性主義傳統。自從古希臘哲學家亞里士多德提出「人是有理性的動物」以來,理性長期以來被認為是人類和自然界其他生物的核心區別,而理性的概念,經過中世紀教會哲學家如多瑪斯·阿奎那(Thomas Aquinas)等人的闡釋,逐漸與抽象、演繹推理的邏輯思維能力高度關聯起來,而人工智能的目標是讓電腦完成只有人類才能完成的任務。

博弈遊戲不僅是由人類發明的,而且在遊戲過程中充分體現了博弈雙方的邏輯推理和計算能力,這些抽象能力從傳統上來看,顯然只有人類這樣有理性的物種才具備。基於這個原因,司馬賀在自傳中回憶,他和紐厄爾在1956年標誌人工智能誕生的達特矛斯會議(Dartmouth Summer Research Project on Artificial Intelligence)之前,本來是想開發國際象棋程式來演示電腦完成智力任務的能力,但當時他們認為對棋局的識別需要處理圖像,而這個任務無論在理論方面還是早期電腦的計算能力方面都不成熟,因而放棄。後來隨着電腦能力的提高和理論的完善後,人們才開始不斷地在西洋跳棋、國際象棋等博弈遊戲領域開展研究。

二、與複雜的真實場景相比,電腦博弈遊戲的複雜度和難度相對較低,容易在技術上得到驗證和取得進步。司馬賀把國際象棋作為認知科學和人工智能研究的基本工具,就像遺傳學中的果蠅一樣,雖然圍棋比國際象棋的複雜度更高,其狀態空間複雜度是10^170(國際象棋是10^46),博弈樹複雜度估計為10^360(國際象棋是10^123),但是其任務本質上並無不同,例如都是對弈雙方在完全資訊下的動態博弈。

人工智能和認知科學哲學家休伯特·德雷福斯(Hubert Dreyfus)在其名著 What Computers Can't Do 中將人類智能活動由易到難分為四類:反射性行為、數學思維、複雜的形式化系統、非形式化行為或感知思維領域,而圍棋、象棋等博弈遊戲,屬於複雜的形式化系統。按德雷福斯的觀點,傳統人工智能基於計算、符號和推理的研究路徑,可以部分地解決這個領域的問題。換言之,電腦博弈尤其是圍棋遊戲雖然比較複雜,但還是可以用符號將遊戲規則、局勢抽象化地表示出來,從而利用電腦擅長處理符號計算的優勢予以解決。如果圍棋的人機大戰中,機器戰勝了人類,那麼意味着至少在和圍棋複雜度類似的任務環境,例如股票交易、芯片設計和測試、車間任務調度等領域,人工智能將比人類完成得更好。

三、通過解決圍棋等複雜博弈遊戲問題,為人工智能實現並超越人類智能在技術上積累經驗。即使目前電腦的運算能力大大提高,但是對於圍棋這種複雜度的遊戲而言,仍然無法進行完全窮盡的蠻力計算。對於對局中下一步的走法,軟件仍然不得不採用各種方法進行篩選(即所謂的「剪枝」),篩選的方法可以是蒙地卡羅方法(Monte Carlo method),也可以是左右手互搏的生成對抗網絡(GAN:Generative Adversarial Networks),而從人類積累的數百萬局棋局中學習,則用到了深度學習方法。AlphaGo 在人機大戰中的勝利,不僅是其有強大的計算能力,更是因為其在軟件設計上的進步。當這些方法在博弈遊戲中得到驗證後,商業巨頭就可將其推廣到可以獲利的應用場景。

檢驗人工智能不足的試金石

反過來,博弈遊戲也可以是檢驗人工智能不足之處的試金石。在西洋雙陸棋遊戲中,由於是通過擲骰子來決定下一步,因此情況就比較複雜,在這個領域電腦程序雖然戰勝過人類冠軍,但和西洋跳棋相比還不能說超越人類。同樣,如果圍棋遊戲中引入彩棋機制,即要求勝方盡可能地多贏子,而不是只要贏就行,那麼對局勢評價函數就形成了新的挑戰。而真實的應用場景比博弈遊戲還要複雜得多,例如難以用符號形式化表示的圖像識別、法律文本的理解、政府的公共決策等領域。另一個更大的問題是在電腦的能耗上,人腦只有1.4千克左右,而 AlphaGo 則使用了近2000塊中央處理器(CPU),以及幾百塊圖形處理器(GPU),因此相對人腦而言,電腦的效率還是非常低,這說明人腦的智能行為機制與電腦還存在很大不同。

博弈遊戲可以抽象為基於規則的系統,從原理上來看,只要通過對海量棋譜的學習,配合蒙地卡羅方法這樣的剪枝方法以及局勢評估函數,AlphaGo 在強大運算和搜索能力的支持下,人類戰勝人工智能的希望幾乎沒有,例如2007年研究者在《科學》雜誌上發表論文證明西洋跳棋程序「奇努克(Chinook)」在理論上已經不可能被人類擊敗。雖然如此,在實際生活環境這種難以全部形式化為規則的情況下,即使電腦能在圍棋上戰勝人類,人工智能仍然有很長的路要走,因此電腦博弈遊戲領域仍將成為一塊試金石,人們期望能從中獲得成功的啟發和失敗的教訓,使人工智能的水平能早日達到或超越人類。

(陳自富,上海交通大學博士生,計算機科學和人工智能史研究者)

註:文章觀點不代表主辦機構立場。

【編者按】:原文題為《又是圍棋……人工智能為什麼總喜歡挑戰棋手?》,載於微信公號「三思派」,《端傳媒》獲作者授權編修轉載。