台湾

创造AlphaGo的台湾“土博士”,他们眼中的黄士杰

黄士杰每天都喂程式“吃”很多职业棋士的棋谱,只要程式“吃”的棋谱够多,一定能比人类还要强。

端传媒记者 蒋金 发自台北

刊登于 2017-01-16

黄世杰与AlphaGo对弈李世石。
黄士杰与AlphaGo对弈李世乭。

“今天只有我来,AlphaGo没来;他不会累,但我会累。”

2016年3月,台湾围棋教育推广协会的张晓茵和她的大学社团的学长黄士杰约好吃晚餐。黄士杰一坐下来就来了这么一句。

前一天,黄士杰才代表DeepMind团队,用人工智慧围棋软体AlphaGo,打败世界围棋冠军南韩九段棋士李世乭,写下了围棋史上的新纪录。

饭桌上,黄士杰谈起他和团队对李世乭怀着最大的尊敬。下棋时,他限制自己做出任何表情声音,也绝不耽误用时。那场比赛,4胜1败,黄士杰非常敬佩李世乭,“因为他事先知道AlphaGo有多强,”张晓茵向记者转述。

那顿饭后,张晓茵去了北京几天,她和中国“野狐围棋网”老板见面,并为他与黄士杰牵了线。野狐围棋网是由腾讯网经营的网上对弈平台,也是AlphaGo与李世乭对弈时流量最大的直播平台。

几个月后,就在2016年12月底,野狐网上出现一位名为“Master”的神秘棋士。“Master”在野狐网上邀请多位九段棋士对弈,震撼性的豪取连胜,也在“弈城围棋网”多个平台上,打败中、日、韩世界顶尖棋士,引得各界惊呼:“你究竟是谁?”

在这期间,野狐创办人,也是顶尖棋手古力,在微博上提供打败Master的10万元(人民币,约11.3万港币/1.4万美元/46.8万台币)奖金。直到,Master豪取了超过一周,今年1月4日,Master象征性的邀请古力担任最后一位对手,在这一场拿下第60场的胜利同时,Master终于在聊天室公开:“我就是AlphaGo的黄博士!”这一次,代AlphaGo升级版Master执子的,还是黄士杰。

张晓茵把AlphaGo在2016年的一系列成就形容为:“一场四千年来围棋界的大跃进”。但不过就在15年前,“打败世界冠军”还只是黄士杰的梦想,而且当时看来这梦想遥不可及。

遇上坚持让学生练功的教授

张晓茵的记忆回到2007年3月,在台湾师范大学的宿舍地下学生餐厅里,阴暗的空间、空气里的饭菜味。当时,她还是音乐硕士一年级的学生,在师大学生热门的BBS(电子布告栏系统)公布栏“精灵之城”和学弟号召组成围棋同好会,学生餐厅是她们下棋的地方。张晓茵在网络对弈平台“传奇围棋网”上认识师大博士班的黄士杰,他是业余者中最顶尖段位的六段棋士,张晓茵便请他来指导,并共同创立了“台师大围棋社”。

大家都叫黄士杰“Aja学长”,黄士杰会帮社员们拟对战分组表,并帮忙还原战场并进行解说。同是第一届社员地理系的黄柏钦还只是大三生,他是社团里最常跟黄士杰对弈,“但当时我跟学长的棋力差太多了,”黄柏钦说,自己当时业余五段,黄士杰为了训练他成为六段,经常用网络跟他下棋并到社团检讨。“下棋,最重要的还是计算,学长的计算非常强,”他说。

黄士杰也会弹钢琴作曲,平时也会跟主修作曲的张晓茵交流作曲心得。创社的2007年,黄士杰也在网络上发表一支“Erica之歌”,是他送给太太的生日礼物。“Erica”是他太太的名字。他在博五时低调结婚,社团朋友与指导教授事前都不知道。而“Erica”也是黄士杰在博士班开发的对局软体的名字,就是AlphaGo的前身。

黄士杰当时就读台师大资讯工程学系(类似计算机科学或软件工程)博士班,第一届硕士班成立时,黄士杰考进了台师大,此后的十年都在台师大养成。台师大,连同其他台湾称作“师范大学”、“师范学院”的学校,原本是专责负担培育学校老师的院校。然而在国家教师政策改变后,台湾师范大学面临转型的问题,必须让自己也具备和普通大学一样的学术竞争力,师大资工系,就是因应这样的需求而成立。

林顺喜教授。
林顺喜教授。

“我们是小单位,人力物力财力都没有,”林顺喜说,“但我们有的是蛮力。”他是这间研究室的主持人,也就是黄士杰的指导老师。资讯工程系馆窄走廊尽头,贴着一张海报写着“演算法与平行应用研究室”。

林顺喜只带过五位博士,虽然人丁不旺,但“五位都是宝贝”,一对一教学,让他可以专心的训练。他要求学生都具有“研发”能力,这并不容易,当台湾大学教授都在追求SCI(科学引文索引,Science Citation Index)论文发表数量,他并不在意。他坚持让学生不断写程式,像打手游一样,把学生从普通等级操练到强悍无敌。

AlphaGo出现前,其他棋类上电脑早已驾驭人类。1997年深蓝电脑(Deep Blue),打败西洋棋王卡斯帕罗夫。

而为什么要研究对局软体?它的重要性是什么?

林顺喜解释,电脑过去只能帮忙人类“做事”,例如算帐、生产。现在演进到帮人类“决策”,例如投资理财、预测天气,甚至写新闻稿。

而开发各种“对局”的电脑软体时,就是透过对对局软体的研究,探究背后的演算技术,帮助人类应用在各种生活领域。

资工所同学陈羽恒说,教授平时常讲起黄士杰这位学长,并以AlphaGo的成功,激励他们。陈羽恒笑说,以前别人会问“原来师范大学有资工系?”,但AlphaGo出现后,让大家知道台师大资工系,也让原本在资工领域中的“小众市场”,对局软体的演算法研究,变得很热门。

他说,林顺喜也喜欢把人才聚集起来,研究室不只有硕博生。研究室的另名学生谢昌龙,就是资工系双主修数学的大四学生,他的爱因斯坦棋软体在去年荷兰举办的19th Computer Olympiad(ICGA 2016)比赛中获得金牌奖。他说,同学们每年至少参加三场国内外的比赛,如台湾电脑对局学会(TCGA),人工智慧学会(TAAI),还有ICGA的比赛。林顺喜花不少时间研究世界冠军软体,包括AlphaGo,传授给学生,不对外公开。学生依据兴趣,选择开发的棋类。

AlphaGo出现前,其他棋类上电脑早已驾驭人类。1997年深蓝电脑(Deep Blue),打败西洋棋王卡斯帕罗夫。而棋艺中最复杂一项的就是“围棋”,这是研究者一直想要突破的领域。

林顺喜的教学精神与黄士杰的坚持起了化学作用。黄士杰在 2003年拿到硕士学位,论文研究电脑如何解决围棋中“打劫”的问题。

图为电脑‘打谱’软体。
图为电脑“打谱”软体。

蒙地卡罗树搜寻方法

进了博士班,黄士杰立志要写出一支对弈程式,第一步,是看懂世界冠军围棋软体“GNU Go”的“原始码”。“这是傻瓜才会做的事,”林顺喜说,这些庞大而复杂的原始码,要花上黄士杰好几个月。

许多人称黄士杰是“土博士”,所谓“土博士”指的是没有出国,在台湾取得学位的博士。林顺喜也是个“土博士”,因为家境考量,没有出国攻读学位,但他用大半研究金费,鼓励学生出国比赛交流,通常派出最强的博士生。因此,让黄士杰在比赛中,遇见另一位重要的指导教授,法国籍 Remi Coulom,他是开发冠军软体“Crazy Stone”的电脑围棋界大师,共同指导黄士杰的博士论文。

黄士杰的博士论文内容,就是研究开发Erica所运用到的“蒙地卡罗树搜寻方法”(Monte Carlo Tree Search,MCTS)。要简单理解这方法,首先要知道,程式设计怎么让电脑下棋。传统上,设计师会写出一套设计排列组合的机制让电脑运算,找出棋盘座标上“最高分”的点,就是最佳下法。

但实际下棋时,棋士每次出手落子,除了找到自己在目前局势下“得分”最高的点以外,还有其他可能的落子点,例如阻挡对手、设陷阱等复杂的决策选择。

因此人们设计出另一套方案,就是让电脑参考“棋谱资料库”,让电脑看前人遇到相同情况时会怎么下。而“蒙地卡罗树搜寻方法”,一种是电脑在执行“学习棋谱”时的其中一种演算法。“蒙地卡罗方法”的概念,是基于大数法则,通过随机抽样的方式,在数量庞大的资料里,不断进行抽样运算,当抽样的次数越多,其平均值也就会越趋近于理论值。换言之,若电脑参考的棋谱越多,结果就越精准。

林顺喜说,这也是为什么,要写出一支越厉害软体,“人脑要越聪明”,程式设计师要设定棋局中的“好点”,来制定演算机制。当时,他们搜集许多职业棋士的棋谱,不断的对Erica进行操练,也研究许多顶尖软体,例如“Fuego”、“Pachi”、“Zen”、“Crazy Stone”。黄士杰也不断透过视讯,跟国外的高手们讨论,甚至一天花上16小时。

张晓茵记得,黄士杰每天都喂程式“吃”很多职业棋士的棋谱,那时她隐约觉得,只要程式“吃”的棋谱够多,一定能比人类还要强,“没想到,这天来的这么快!”

林顺喜认为,那是第一次人类打败AlphaGo,也很可能也将是最后一次。此后,人类可能不会再赢。因为Master,也就是AlphaGo第18版的棋力,根据“ELO分级”,已经相当于段位的十四段。

在2007年,Erica在许多比赛中的名次都还是倒数,但不断操练演进,Erica终于有了成长。到2010年,Erica在日本金泽市,打败了当时世界第一的对弈软体“Zen”,成为新的世界冠军,夺得日本国际电脑奥林匹克竞赛,“19路电脑围棋金牌”。

虽然拿了世界冠军,但Erica离人类棋手的棋力还是相差很远。拿冠军之后的人机对抗中,输给了一名12岁职业初段的职业棋士藤泽里菜。而林顺喜指出,2010年两软体对弈当时,并没有进行棋力评估,约略而言,是业余棋士初段的水准。而直到去年,Zen的棋力已经提升到业余五段的水准。

但Erica的研究成果让他获得许多关注,在2011年7月博士论文通过前,就有许多学术单位要延揽他,黄士杰一毕业,就飞到加拿大当研究员。一年后,英国的一家专门研究人工智慧的公司DeepMind挖角他,但面试时,他们告诉黄士杰,公司不做围棋软体,这项研究赚不了钱。

但这并未消解他对围棋的热情。他在闲暇时间自力开发围棋软体,没想到,被公司老板Demis Hassabis 注意,Demis本身是西洋棋神童,成为支持研究的关键人。而黄士杰的围棋软体,加上同为首席设计师的David Silver,是机器学习领域专家,技术有了卓越发展。

几个月后,DeepMind这间还未赚钱的公司,竟被Google用台币120亿元(约29亿港币/3.7亿美元/25亿人民币)并购。接着,Google旗下的AlphaGo就在 2015年10月,以5:0击败欧洲围棋冠军、专业二段棋手樊麾。这一战,一直保密到2016年1月,黄士杰与David Silver共同在《Nature》杂志上发表了AlphaGo的论文,AlphaGo终于正式问世。

接着,AlphaGo再与南韩冠军李世乭对弈,震撼了全球,五局中,AlphaGo被李世乭在第四回的“神之一手”,拿下了一局。

林顺喜认为,那是第一次人类打败AlphaGo,也很可能也将是最后一次。此后,人类可能不会再赢。因为Master,也就是AlphaGo第18版的棋力,根据“ELO分级”,已经相当于段位的十四段。

ELO分级

ELO等级分制,为物理学家Arpad Elo创建的一种对弈活动水准的评价分级,普遍用于棋类与网络游戏。根据这项指标,Master棋力已经达到“ELO分级”45000级,相当于职业十四段。而人类职业棋士分为一段到九段,九段最高。根据林顺喜教授2016年推估各软体的棋力表,打败李世石的AlphaGo13版,棋力是九段。
黄世杰在校演练时所使用的围棋组。
黄士杰在校演练时所使用的围棋组。

AlphaGo就是里程碑

Master棋力突飞猛进的关键,在于 Google 挹注大量的经费、硬体设备和人才,加上近年快速成长的大数据图像棋谱资料,给AlphaGo注入强大的生命力。

陈羽恒说,现在AI领域“深度学习”技术,成为每位资工学生都要学的技术。他说,“深度学习”是机器学习中的一种技术,类似人类神经系统元的资讯处理与通讯模式,让电脑自我学习,最早是用在图像辨识上。

陈羽恒认为,深度学习过去没被人应用在围棋领域,黄士杰的创新之处不在新技术,“目前AlphaGo公布的技术,都是旧技术,关键是新方法。”

“AlphaGo的意义,就是里程碑,”林顺喜说,Master的发展,让Google公司证明他们的人工智慧的卓越进步,奠定世界顶尖的地位,并开始发展AI技术的商业应用。例如在医疗应用上,第一阶段是让电脑开处方签,第二阶段则是开刀,甚或未来完全取代人类。

AlphaGo是天时地利人和的结果,林顺喜说,回顾15年历程,只要少了任何一步,AlphaGo就不会诞生。一如20年前,台湾大学电机系毕业生许峰雄,到卡内基梅隆大学(CMU)开发了“深思”(Deep Thought),进入IBM后才有了“深蓝”(Deep Blue)。

“学长自己从不居功,”张晓茵说。与李世乭对弈完的后一天晚上,黄士杰谈起AlphaGo,把功劳都给了Demis跟顶尖的AI技术人员们。

15年过去,当年与黄士杰下棋的学弟黄柏钦,已是一名高中老师。“台湾很难有这种人才,没有留洋就成功的,Aja学长是台湾俗称的土博士,”黄柏钦说,“我想让我的学生知道,要怎么走这条路。”

本刊载内容版权为端传媒或相关单位所有,未经端传媒编辑部授权,请勿转载或复制,否则即为侵权。

延伸阅读