日报

战胜人类顶级围棋手的 DeepMind,又横扫了唇语专家

刊登于 2016-11-25

Google的DeepMind AI 在唇读较量中战胜人类专家。
Google 的 DeepMind AI 在唇读较量中战胜人类专家。

尽管一般人在日常对话时,都会在潜意识里通过对方嘴唇运动信息来帮助听觉上的理解,但专业的唇读(lip-reading)难度极高,一直以来也被认为是人类的独门绝技。2006年的世界杯决赛场上,法国足球巨星齐达内(Zinedine Zidane)一头撞倒意大利后卫马特拉齐(Marco Materazzi),令全世界观众目瞪口呆,也引来众多唇语专家纷纷还原二人当时的对话——但这些解读后来都被当事人否认,让专家们颜面扫地。

10年后,唇语专家们不得不再次感到“羞愧”,因为他们的这项“绝技”已经被人工智能(AI)掌握甚至超越了,而这次的主角依然是此前战胜人类顶级围棋手的 Google 旗下 DeepMind 公司。

DeepMind 与英国牛津大学合作,利用热门的机器学习(machine learning)技术开发出这个具有唇读功能的 AI 系统,他们在一篇论文中详述了算法原理。机器学习(Machine Learning)是近年来 AI 领域的主要研究方向之一,它是一类从大量数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。

这个 AI 系统总共“观摩学习”了总长度近5000小时的 BBC 节目,包括从2010年到2015年间的 Newsnight、BBC Breakfast 和 Question Time 等,这些录影资料总计有大约11.8万句话。然后,研究团队从2016年3月到9月间新播出的节目中随机选取200个说话场景,让 AI 与人类唇语专家进行对比测试,结果 AI 完胜:人类专家的准确率仅为12.4%,而 AI 的准确率达到46.8%。

这个 AI 系统可以通过说话者的唇形准确解读出复杂的语句,比如“We know there will be hundreds of journalists here as well”(我们了解到还将有数百位记者会来)和“According to the latest figures from the Office of National Statistics”(根据国家统计署的最新数据)等等。而 AI 的误读中有很多都无关紧要,例如漏掉某些词后面的“s”等。

这些结果显示 AI 已经在唇读领域全面超越人类,而且也不难想象它的应用前景。比如在未来,人们用 Skype 通话时如果环境声音很嘈杂,或者用户有听觉障碍,他们都只需要看着手机就能‘听’到对方在讲什么。

MIT 科技评论

就在不久前,牛津大学、DeepMind 和加拿大高等研究院(CIFAR)联合发布了另一篇论文,介绍他们基于一个较为简单的语料库 GRID 所开发出来的唇读程序 LipNet。由于测试数据较简单,LipNet 的准确度高达93.4%,但人类唇读专家的成绩只有79.6%;而听觉受损但会读唇的志愿者只有52.3%的准确度,因此这一系统在未来对听障人士将大有帮助。

与无人驾驶等受到投资者热捧但也备受争议的 AI 应用相比,通过唇语识别来帮助有听力障碍的人士这类应用,似乎也应该受到一些关注。此外,与近期同样热门的语音识别相比,唇语识别在嘈杂的环境中更有优势,但当然,它对环境光线也有一定要求。不过,如果你喉咙不舒服(扁桃体肿了)但又不想打字,将来就可以使用 DeepMind 这个新系统,动动嘴唇来跟人交流。

如果你不相信齐达内和马特拉齐当中任何一个人的解释(马特拉齐对 ESPN 承认,他辱骂了齐达内的姐姐),那不妨让 DeepMind 告诉我们,他们两人那一夜到底发生了什么吧。

机器学习

Machine Learning,是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜寻引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机械人等领域。(资料来自维基百科,百科内容以 CC BY-SA 3.0 授权)

来源:ZDNet新科学家MIT科技评论

本刊载内容版权为端传媒或相关单位所有,未经端传媒编辑部授权,请勿转载或复制,否则即为侵权。

延伸阅读