游客

百度AI负责人林元庆复盘征战《最强大脑》

游客 2017-01-23 14:37:20    201258 次浏览

百度AI负责人林元庆复盘征战《最强大脑》

2016 年 12 月 14 日,虎嗅对百度深度学习实验室(IDL)主任林元庆及其率领的团队进行了采访,主题是“小度”参与江苏卫视《最强大脑》的前台幕后。

彼时,我们已获悉相关节目将于 2017 年 1 月 6 日到 1 月 20 日间分三期播出,到场的四家媒体签署了保密协议,承诺不会提前泄露比赛结果及任何细节。

之所以提前半个多月接受采访,是因为深度学习团队刚从南京归来,兴奋劲儿尚未消退,讲述者记忆犹新,听者身临其境。

这三期节目播出后,“水哥”等明星选手的完败令粉丝们失望至极,网络推手借机煽情,似乎全人类都成了输家。

  缘起

《最强大脑》是江苏卫视推出的大型科学竞技真人秀节目,原型是德国的《Super Brain》。

2014 年开播以来,观众认识了一个又一个奇人。例如郑才千在 4.5 万个色块组成的“魔方墙”中“找茬”;“水哥”从同质、同量、同源的 520 杯水中找到拿给自己看过的那杯;“迷宫行者”鲍橒因“强到没对手”而退赛;“记忆大师”王峰用 1 小时记忆 620 张扑克牌;8 岁的“辨音神童”孙亦廷从装满水的气球落地的声音精准判断坠落高度……

2014 年-2016 年,《最强大脑》连播三季,取得相当不错的成绩:

2014 年,第一季播出,收视率从 1.4% 攀升到最后一期的 2.7%,全年均值为 1.7%;

2015 年,第二季的收视率均值为 2.1%,峰值出现在第十期为 2.38%;

2016 年,第三季的收视率均值为 2.1%,峰值出现在第十一期为 2.55%。

但观众总有审美疲劳的时候,《最强大脑》已经风光了三年,第四季如果还是老一套,收视率可能出现断崖式下跌。

犹豫 2017 年还要不要搞时,阿尔法狗的挑战令人工智能受到空前关注,江苏卫视抓住“救命稻草”。

但先要搞清楚“人机大战”能不能成立。对《最强大脑》稍微有了解就会知道,许多项目人类只能被机器碾压。比如王峰可以在 1 小时内记忆 1984 个数字,而低档 PC 能记多少个G全看硬盘容量。再比如识别牛身上的黑白花纹,随便一个破手机就能完胜人类“最强大脑”。

在科学家“外脑“参与下,江苏卫视花了一番功夫设计了三场“人机大战”:跨年龄人脸识别、语音识别、复杂条件下人脸识别。

江苏卫视向多家科技公司发出过“英雄帖”,最终百度接下这张“帖子”。

林元庆说百度并未参与比赛形式设计,只是和其它选手一样事先被告知比赛的大致方向,如“跨年龄人脸识别”,筹备时间只有两三个月。

江苏卫视设计“人机大战”的基本原则是让人和机器在能力相当的领域较量。如果让人与机器比识别二维码或 10 位数乘以 10 位数,就贻笑大方了。题目的展示形式也尽量平衡人、机双方的特长,比如使用彩色照片是照顾了机器,而在展示时间和次数方面则迁就了人类(对机器来讲千分之一秒就足够了)。

 回顾

  第一场:比的是跨年龄识别,王峰出战“小度”

原定由郑才千出战。但是面对镜头,他突然说没有戴眼镜,无法比赛。另一位人脸识别高手李威说昨晚只睡了两小时……选手间推诿之际,队长王峰从评委席起身表示要参赛。郑才午、李威又说可以比,最终魏教授选择了王峰。

第一轮,展示 20 位“蜜蜂少女队”的动态表演录像(平均每人 3 秒),由嘉宾(章子怡)挑选其中两位 4 岁以前的照片,要求与录像中的女孩匹配。

比赛时,三张很小的照片在屏幕上展示一下,接着音乐响起,唱唱跳跳上来 20 个姑娘,每个姑娘在摄像机面前定格几秒钟。人和机器都是通过屏幕看到的。

第一张童年照的主人被双方轻松确认;

第二张王峰答错、“小度”却没有马上输出答案,林元庆说当时团队紧张到了极点。

百度科学家和 Dr. 魏一起去看,发现“小度”识别出来两个人,她们之间仅有万分之一的差异。原来节目组背着所有选手在 20 位少女中安插了一对儿双胞胎。章子怡恐怕是“托”,不然就是偶然选到双胞胎中一人的童年照片。根据这张照片,“小度”在 20 位少女中发现两个“疑似目标”,她们与照片的匹配度相差 0.01%(即万分之一)。谜底揭晓后现场哗然,鼓掌雷动,为“小度”喝彩。

第二轮,先观察一位 30 岁以上的观众,随后将他从 30 张小学集体照(共有超过 1000 张脸)中找出(跨度将近 20 岁)。王峰、“小度”都顺利发现目标。

第一场比赛“小度”以3:2 获胜。

  第二场:比声纹识别

比赛时,先用帘子先挡着,大家都不知道后面有多少人。嘉宾周杰伦与其中 3 人通了电话,机器和人类选手听到的声音是被干扰的,模仿手机信号不好声音飘忽、断续的效果。然后帘子拉开,20 多人表演大合唱,要我们把与周杰伦通话的“线人”识别出来。

第一名“线人”,孙亦廷、“小度”都没能识别出来。现场单独回放该人的话音的歌声时,普通人都能感到些“端倪”。这一方面是心理暗示在起作用,另一方面是 21 位专业歌手唱“单声部”,她们的声音融合得太好难以分辨。

第二名“线人”被孙亦廷听了出来,“小度”失手。

第三名“线人”没有被孙亦廷识别出来,“小度”成功扳回一局。

两场比过,1 胜 1 平的“小度”立于不败之地。

在这种情况下,1 月 20 日播出的第三场比赛被一部分观众视为“人类尊严之战”。

  第三场:“弱光动态人脸识别”,由“水哥”披挂上阵

节目预设是 3 个盗贼带着口罩和帽子在灯光很暗的环境下抢劫,被高位摄像头、行车记录仪和手机偶然拍到。拍摄光线弱、人在迅速移动而且面孔被口罩、大沿帽遮挡。选手要从 30 名群众演员中找到 3 个“盗贼”。

最终“小度”以2:0 获胜,但“水哥”三道题的备选答案中都包括正确选项。

这正是人与机器的得大不同:人会疲劳、会冲动、会心神不安、会有一念之差,机器不会。换一个时间、地点或者心情,“水哥”可能做出不同的选择。

  深度学习

以跨年龄人脸识别为例,林元庆讲解了“深度学习”的原理。

众所周知,人的五官在长大后会变,脸型也有可能会变,还有可能整容。

王峰在现场发问:“这些志愿者里面,会不会有人整过容?”嘉宾回答:“这个不能说。整容与否这个因素,对人和机器都是一样的障碍,所以比赛依然是公平的。”

因此跨年龄“人脸识别”考验的不单纯是图像比对。

林元庆介绍说,他们做了一个深度学习框架:把人脸分为七个部位,给机器大量存在相互关系的照片以供训练、学习(如 AAA 号、DFK 号与 ABX 号都是同一个人的照片),让机器自已总结哪些特征能够跨过岁月。在比赛前,百度机器人已经“学习”了 2 亿张照片,总结出 72 个关键点,进一步得到 128 维的特征。

“水哥”解释为什么失利时说:我每组都留下了两个备选答案(此次比赛,正确答案都包含其中)。二选一时,我就不看五官了,只用耳朵和鬓角的细节去校正。节目组后来告诉我,照片是一个月前拍的,“一个长了青春痘,一个刚刚理了发,另一个一直没理头发,头发长长了!”

学习了 2 亿张照片的“小度”经验更丰富,没有受“青春痘”、“头发长长”的影响。

值得注意的是,远不如机器“勤奋”的“水哥”只是惜败。说明人类,特别是有专长的人,有一些只可意会不可言传的能力。

  “人机大战”下半场

去年王兴“中国互联网已经进入下半场”之论甚嚣尘上,也有许多人不以为然:没人知道整场比赛的全貌,凭什么断定上半场结束了?

“人机大战”倒是可以分为上、下半场:

上半场,人类为自己的败绩感到幸喜。从 1776 年瓦特发明蒸汽机,人类幸福地败于火车、汽车、飞机……二十世纪四十年代计算机被发明了出来,人类在引以为傲的智力领域又屡尝败绩,记忆、运算、应变……

下半场,人类对机器的每场胜利感到忧心忡忡。

其实只要机器仍能为人类所用,“可以替代人类工作”就一点不可怕。别的不说,各种交通工具(汽车、火车、轮船、飞机……)运输的货物用人力搬运就得用几十亿人。

在“人机大战”下半场,我们会痛并快乐着。一方面享受人工智能、深度学习的“福利”,另一方面担心机器人“功高震主”。

各式各样的比赛也会层出不穷,奥运会项目可以一个个拿来玩,比如和“人形机器人”打羽毛球、乒乓球……

内容加载中