日报

不满足于AI对抗人类,Google设计“囚徒困境”让AI大战AI!

刊登于 2017-02-13

Google把AI放入囚徒困境,测试他们会合作还是冲突。
有数据显示,自2009年以来,人工智能已经吸引了超过170亿美元的投资。

未来的人工智能(AI)时代对人类究竟会带来怎样的影响?当 AI 大幅介入人类生活,例如同时有两辆 AI 汽车开往同一目的地,又或者两个机器人控制的企业争夺同一处资源,发生利益冲突时,他们会相互对抗抑或合作追求双赢?

继研发 AlphaGo 打败各大围棋棋王后,Google 旗下人工智能公司 DeepMind 最近就试验了让 AI 对抗 AI,结果发现,在追求最高胜算的目标下, AI 表现出了足够灵活度,对抗与合作的情况都有发生。

DeepMind 在新研究中,测试 AI 如何在一系列可能要运用博弈论(game theory)的“社会困境”中,根据所处的环境及情况改变他们的行为模式。而最出名的实验,就是模仿了知名的“囚徒困境”(prisoner's dilemma)。

囚徒困境

这是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。在经典的囚徒困境中,两名共谋的罪犯被分开审问,不得相互沟通。若两人都不揭发对方,则因证据不足,每人都坐牢半年;若只有某一人认罪并供出同伙,便会立功而获释,而同伙则会因不合作警方被判刑10年;若两人都互相检举,则因证据确凿,皆判刑5年。也因为囚徒无法信任对方,此理论说明为何在合作对双方都有利时,保持合作也是困难的。 (资料来自维基百科及端传媒整理,百科内容以 CC BY-SA 3.0 授权)

具体而言,DeepMind 团队设计了两款游戏让两个 AI 系统竞赛。第一款是名为“Gathering”的回合制收集苹果比赛。玩家能以光束攻击对方使其暂时消失,从而为自己争取更多收集苹果的时间。而第二款捕猎游戏“Wolfpack”中,玩家则要在障碍物中寻找猎物来得分,但若对手抓到猎物时,另一名玩家刚好在附近,也能得分;而若只有一名玩家抓到猎物,则有被拾荒者抢走猎物的风险。

在 AI 在游戏中进行了成千上万次尝试以学习“理性行事”后,研究人员发现,在同一游戏中,AI 会根据不同情境相互合作或竞争。

例如在收集苹果比赛中,若苹果数量充足,则 AI 彼此相安无事,各自收集愈多苹果愈好;但随着苹果数量减少,彼此攻击的频率便逐渐增加。有趣的是,若研究者提高某一 AI 的计算能力,则无论苹果多寡,该 AI 的攻击频率也会大幅增加。

但研究团队认为,这并不代表能力愈高的 AI 就愈有攻击性。因为攻击行为本身相当耗费运算资源,若投入过多,也会影响收集的苹果数量。也就是说,AI 并非因为更聪明而更“自私”,他们的攻击欲望其实与之前一样,只不过计算能力不够时,攻击行为实在是得不偿失。

同样的结论也出现在捕猎的“Wolfpack”游戏中,团队发现运算能力愈高的 AI 彼此合作的机率也愈高。团队解释,在此游戏中,合作行为需要使用更多运算资源,且由于猎物只有1个,对抗不能增加获胜机会,因而愈有能力的 AI 愈倾向与对手合作。

DeepMind 团队指出,这些实验显示 AI 会根据不同游戏规则所影响的情境及风险,来改变自身行为;因此,未来可以透过制定合作共赢的规则,限制AI的行为模式。他们也表示,此实验表明我们能将现代的 AI 多重人工智能学习技术运用到如“合作如何出现”等古老的社会科学问题中,也因而能让人们更理解并掌握未来如经济、交通系统、地球生态系等复杂的多重人工智能系统。

25
英国智库 Reform 2月指出,AI 在未来15年将能取代25万公务员,节省大笔公帑。

声音

我认为现在评论它们的行为还太早了。让 AI 竞争至少几年,到那时我们才能看到更进化的行为。人们花了几百年来进化成现在的状态,我能说的是在我们得出结论前,给 AI 一点时间。

网友 gyan deep

我觉得设下“让别人获益”的规则,然后看看会发生什么事也会很有趣。我在想他们会不会让每个人都公平受益,或是努力地让别人获得好处,自己一点都不拿。

网友 Sc0rch3d

来源:Deep MindThe VergeIB Times香港01

本刊载内容版权为端传媒或相关单位所有,未经端传媒编辑部授权,请勿转载或复制,否则即为侵权。

延伸阅读