創造AlphaGo的台灣「土博士」,他們眼中的黃士傑

黃士傑每天都餵程式「吃」很多職業棋士的棋譜,只要程式「吃」的棋譜夠多,一定能比人類還要強。


黃世傑與AlphaGo對弈李世石。
黃士傑與AlphaGo對弈李世乭。攝:Google via Getty Images

「今天只有我來,AlphaGo沒來;他不會累,但我會累。」

2016年3月,台灣圍棋教育推廣協會的張曉茵和她的大學社團的學長黃士傑約好吃晚餐。黃士傑一坐下來就來了這麼一句。

前一天,黃士傑才代表DeepMind團隊,用人工智慧圍棋軟體AlphaGo,打敗世界圍棋冠軍南韓九段棋士李世乭,寫下了圍棋史上的新紀錄。

飯桌上,黃士傑談起他和團隊對李世乭懷着最大的尊敬。下棋時,他限制自己做出任何表情聲音,也絕不耽誤用時。那場比賽,4勝1敗,黃士傑非常敬佩李世乭,「因為他事先知道AlphaGo有多強,」張曉茵向記者轉述。

那頓飯後,張曉茵去了北京幾天,她和中國「野狐圍棋網」老闆見面,並為他與黃士傑牽了線。野狐圍棋網是由騰訊網經營的網上對弈平台,也是AlphaGo與李世乭對弈時流量最大的直播平台。

幾個月後,就在2016年12月底,野狐網上出現一位名為「Master」的神秘棋士。「Master」在野狐網上邀請多位九段棋士對弈,震撼性的豪取連勝,也在「弈城圍棋網」多個平台上,打敗中、日、韓世界頂尖棋士,引得各界驚呼:「你究竟是誰?」

在這期間,野狐創辦人,也是頂尖棋手古力,在微博上提供打敗Master的10萬元(人民幣,約11.3萬港幣/1.4萬美元/46.8萬台幣)獎金。直到,Master豪取了超過一週,今年1月4日,Master象徵性的邀請古力擔任最後一位對手,在這一場拿下第60場的勝利同時,Master終於在聊天室公開:「我就是AlphaGo的黃博士!」這一次,代AlphaGo升級版Master執子的,還是黃士傑。

張曉茵把AlphaGo在2016年的一系列成就形容為:「一場四千年來圍棋界的大躍進」。但不過就在15年前,「打敗世界冠軍」還只是黃士傑的夢想,而且當時看來這夢想遙不可及。

遇上堅持讓學生練功的教授

張曉茵的記憶回到2007年3月,在台灣師範大學的宿舍地下學生餐廳裏,陰暗的空間、空氣裏的飯菜味。當時,她還是音樂碩士一年級的學生,在師大學生熱門的BBS(電子布告欄系統)公布欄「精靈之城」和學弟號召組成圍棋同好會,學生餐廳是她們下棋的地方。張曉茵在網絡對弈平台「傳奇圍棋網」上認識師大博士班的黃士傑,他是業餘者中最頂尖段位的六段棋士,張曉茵便請他來指導,並共同創立了「台師大圍棋社」。

大家都叫黃士傑「Aja學長」,黃士傑會幫社員們擬對戰分組表,並幫忙還原戰場並進行解說。同是第一屆社員地理系的黃柏欽還只是大三生,他是社團裏最常跟黃士傑對弈,「但當時我跟學長的棋力差太多了,」黃柏欽說,自己當時業餘五段,黃士傑為了訓練他成為六段,經常用網絡跟他下棋並到社團檢討。「下棋,最重要的還是計算,學長的計算非常強,」他說。

黃士傑也會彈鋼琴作曲,平時也會跟主修作曲的張曉茵交流作曲心得。創社的2007年,黃士傑也在網絡上發表一支「Erica之歌」,是他送給太太的生日禮物。「Erica」是他太太的名字。他在博五時低調結婚,社團朋友與指導教授事前都不知道。而「Erica」也是黃士傑在博士班開發的對局軟體的名字,就是AlphaGo的前身。

黃士傑當時就讀台師大資訊工程學系(類似計算機科學或軟件工程)博士班,第一屆碩士班成立時,黃士傑考進了台師大,此後的十年都在台師大養成。台師大,連同其他台灣稱作「師範大學」、「師範學院」的學校,原本是專責負擔培育學校老師的院校。然而在國家教師政策改變後,台灣師範大學面臨轉型的問題,必須讓自己也具備和普通大學一樣的學術競爭力,師大資工系,就是因應這樣的需求而成立。

林順喜教授。
林順喜教授。攝:徐翌全/端傳媒

「我們是小單位,人力物力財力都沒有,」林順喜說,「但我們有的是蠻力。」他是這間研究室的主持人,也就是黃士傑的指導老師。資訊工程系館窄走廊盡頭,貼着一張海報寫着「演算法與平行應用研究室」。

林順喜只帶過五位博士,雖然人丁不旺,但「五位都是寶貝」,一對一教學,讓他可以專心的訓練。他要求學生都具有「研發」能力,這並不容易,當台灣大學教授都在追求SCI(科學引文索引,Science Citation Index)論文發表數量,他並不在意。他堅持讓學生不斷寫程式,像打手遊一樣,把學生從普通等級操練到強悍無敵。

AlphaGo出現前,其他棋類上電腦早已駕馭人類。1997年深藍電腦(Deep Blue),打敗西洋棋王卡斯帕羅夫。

而為什麼要研究對局軟體?它的重要性是什麼?

林順喜解釋,電腦過去只能幫忙人類「做事」,例如算帳、生產。現在演進到幫人類「決策」,例如投資理財、預測天氣,甚至寫新聞稿。

而開發各種「對局」的電腦軟體時,就是透過對對局軟體的研究,探究背後的演算技術,幫助人類應用在各種生活領域。

資工所同學陳羽恆說,教授平時常講起黃士傑這位學長,並以AlphaGo的成功,激勵他們。陳羽恆笑說,以前別人會問「原來師範大學有資工系?」,但AlphaGo出現後,讓大家知道台師大資工系,也讓原本在資工領域中的「小眾市場」,對局軟體的演算法研究,變得很熱門。

他說,林順喜也喜歡把人才聚集起來,研究室不只有碩博生。研究室的另名學生謝昌龍,就是資工系雙主修數學的大四學生,他的愛因斯坦棋軟體在去年荷蘭舉辦的19th Computer Olympiad(ICGA 2016)比賽中獲得金牌獎。他說,同學們每年至少參加三場國內外的比賽,如台灣電腦對局學會(TCGA),人工智慧學會(TAAI),還有ICGA的比賽。林順喜花不少時間研究世界冠軍軟體,包括AlphaGo,傳授給學生,不對外公開。學生依據興趣,選擇開發的棋類。

AlphaGo出現前,其他棋類上電腦早已駕馭人類。1997年深藍電腦(Deep Blue),打敗西洋棋王卡斯帕羅夫。而棋藝中最複雜一項的就是「圍棋」,這是研究者一直想要突破的領域。

林順喜的教學精神與黃士傑的堅持起了化學作用。黃士傑在 2003年拿到碩士學位,論文研究電腦如何解決圍棋中「打劫」的問題。

圖為電腦『打譜』軟體。
圖為電腦「打譜」軟體。攝:徐翌全/端傳媒

蒙地卡羅樹搜尋方法

進了博士班,黃士傑立志要寫出一支對弈程式,第一步,是看懂世界冠軍圍棋軟體「GNU Go」的「原始碼」。「這是傻瓜才會做的事,」林順喜說,這些龐大而複雜的原始碼,要花上黃士傑好幾個月。

許多人稱黃士傑是「土博士」,所謂「土博士」指的是沒有出國,在台灣取得學位的博士。林順喜也是個「土博士」,因為家境考量,沒有出國攻讀學位,但他用大半研究金費,鼓勵學生出國比賽交流,通常派出最強的博士生。因此,讓黃士傑在比賽中,遇見另一位重要的指導教授,法國籍 Rémi Coulom,他是開發冠軍軟體「Crazy Stone」的電腦圍棋界大師,共同指導黃士傑的博士論文。

黃士傑的博士論文內容,就是研究開發Erica所運用到的「蒙地卡羅樹搜尋方法」(Monte Carlo Tree Search,MCTS)。要簡單理解這方法,首先要知道,程式設計怎麼讓電腦下棋。傳統上,設計師會寫出一套設計排列組合的機制讓電腦運算,找出棋盤座標上「最高分」的點,就是最佳下法。

但實際下棋時,棋士每次出手落子,除了找到自己在目前局勢下「得分」最高的點以外,還有其他可能的落子點,例如阻擋對手、設陷阱等複雜的決策選擇。

因此人們設計出另一套方案,就是讓電腦參考「棋譜資料庫」,讓電腦看前人遇到相同情況時會怎麼下。而「蒙地卡羅樹搜尋方法」,一種是電腦在執行「學習棋譜」時的其中一種演算法。「蒙地卡羅方法」的概念,是基於大數法則,通過隨機抽樣的方式,在數量龐大的資料裏,不斷進行抽樣運算,當抽樣的次數越多,其平均值也就會越趨近於理論值。換言之,若電腦參考的棋譜越多,結果就越精準。

林順喜說,這也是為什麼,要寫出一支越厲害軟體,「人腦要越聰明」,程式設計師要設定棋局中的「好點」,來制定演算機制。當時,他們搜集許多職業棋士的棋譜,不斷的對Erica進行操練,也研究許多頂尖軟體,例如「Fuego」、「Pachi」、「Zen」、「Crazy Stone」。黃士傑也不斷透過視訊,跟國外的高手們討論,甚至一天花上16小時。

張曉茵記得,黃士傑每天都餵程式「吃」很多職業棋士的棋譜,那時她隱約覺得,只要程式「吃」的棋譜夠多,一定能比人類還要強,「沒想到,這天來的這麼快!」

林順喜認為,那是第一次人類打敗AlphaGo,也很可能也將是最後一次。此後,人類可能不會再贏。因為Master,也就是AlphaGo第18版的棋力,根據「ELO分級」,已經相當於段位的十四段。

在2007年,Erica在許多比賽中的名次都還是倒數,但不斷操練演進,Erica終於有了成長。到2010年,Erica在日本金澤市,打敗了當時世界第一的對弈軟體「Zen」,成為新的世界冠軍,奪得日本國際電腦奧林匹克競賽,「19路電腦圍棋金牌」。

雖然拿了世界冠軍,但Erica離人類棋手的棋力還是相差很遠。拿冠軍之後的人機對抗中,輸給了一名12歲職業初段的職業棋士藤澤里菜。而林順喜指出,2010年兩軟體對弈當時,並沒有進行棋力評估,約略而言,是業餘棋士初段的水準。而直到去年,Zen的棋力已經提升到業餘五段的水準。

但Erica的研究成果讓他獲得許多關注,在2011年7月博士論文通過前,就有許多學術單位要延攬他,黃士傑一畢業,就飛到加拿大當研究員。一年後,英國的一家專門研究人工智慧的公司DeepMind挖角他,但面試時,他們告訴黃士傑,公司不做圍棋軟體,這項研究賺不了錢。

但這並未消解他對圍棋的熱情。他在閒暇時間自力開發圍棋軟體,沒想到,被公司老闆Demis Hassabis 注意,Demis本身是西洋棋神童,成為支持研究的關鍵人。而黃士傑的圍棋軟體,加上同為首席設計師的David Silver,是機器學習領域專家,技術有了卓越發展。

幾個月後,DeepMind這間還未賺錢的公司,竟被Google用台幣120億元(約29億港幣/3.7億美元/25億人民幣)併購。接着,Google旗下的AlphaGo就在 2015年10月,以5:0擊敗歐洲圍棋冠軍、專業二段棋手樊麾。這一戰,一直保密到2016年1月,黃士傑與David Silver共同在《Nature》雜誌上發表了AlphaGo的論文,AlphaGo終於正式問世。

接着,AlphaGo再與南韓冠軍李世乭對弈,震撼了全球,五局中,AlphaGo被李世乭在第四回的「神之一手」,拿下了一局。

林順喜認為,那是第一次人類打敗AlphaGo,也很可能也將是最後一次。此後,人類可能不會再贏。因為Master,也就是AlphaGo第18版的棋力,根據「ELO分級」,已經相當於段位的十四段。

ELO分級

ELO等級分制,為物理學家Arpad Elo創建的一種對弈活動水準的評價分級,普遍用於棋類與網絡遊戲。根據這項指標,Master棋力已經達到「ELO分級」45000級,相當於職業十四段。而人類職業棋士分為一段到九段,九段最高。根據林順喜教授2016年推估各軟體的棋力表,打敗李世石的AlphaGo13版,棋力是九段。
黃世傑在校演練時所使用的圍棋組。
黃士傑在校演練時所使用的圍棋組。攝:徐翌全/端傳媒

AlphaGo就是里程碑

Master棋力突飛猛進的關鍵,在於 Google 挹注大量的經費、硬體設備和人才,加上近年快速成長的大數據圖像棋譜資料,給AlphaGo注入強大的生命力。

陳羽恆說,現在AI領域「深度學習」技術,成為每位資工學生都要學的技術。他說,「深度學習」是機器學習中的一種技術,類似人類神經系統元的資訊處理與通訊模式,讓電腦自我學習,最早是用在圖像辨識上。

陳羽恆認為,深度學習過去沒被人應用在圍棋領域,黃士傑的創新之處不在新技術,「目前AlphaGo公布的技術,都是舊技術,關鍵是新方法。」

「AlphaGo的意義,就是里程碑,」林順喜說,Master的發展,讓Google公司證明他們的人工智慧的卓越進步,奠定世界頂尖的地位,並開始發展AI技術的商業應用。例如在醫療應用上,第一階段是讓電腦開處方籤,第二階段則是開刀,甚或未來完全取代人類。

AlphaGo是天時地利人和的結果,林順喜說,回顧15年歷程,只要少了任何一步,AlphaGo就不會誕生。一如20年前,台灣大學電機系畢業生許峰雄,到卡內基梅隆大學(CMU)開發了「深思」(Deep Thought),進入IBM後才有了「深藍」(Deep Blue)。

「學長自己從不居功,」張曉茵說。與李世乭對弈完的後一天晚上,黃士傑談起AlphaGo,把功勞都給了Demis跟頂尖的AI技術人員們。

15年過去,當年與黃士傑下棋的學弟黃柏欽,已是一名高中老師。「台灣很難有這種人才,沒有留洋就成功的,Aja學長是台灣俗稱的土博士,」黃柏欽說,「我想讓我的學生知道,要怎麼走這條路。」