4 月 16 日,湖南卫视芒果娱乐正式推出综艺新栏目《超次元偶像》,在北京举行的发布会上,微软人工智能“小冰”出现并参与互动、游戏。
发布会上,小冰不仅与何炅、何冰、徐海乔等嘉宾主持调侃互动,还现场测试评价明星选手以及栏目总导演的颜值,献唱歌曲《好想你》,并联合太湖之光超级计算机运用大数据生成了最帅人像。
虽然小冰在栏目中的戏份还在保密阶段,但从发布会现场的环节安排上看,这档综艺节目中小冰应该不是配角。2017 年初,李开复曾提醒综艺主持人们“小心人工智能小冰抢饭碗”,3 个月过去,这似乎就要成为现实。
这是小冰一年多来在东方卫视主持早间新闻节目之后,首次在国内进入互动综艺节目场景。
进入综艺节目对于人工智能要求明显要更高。在不久前的独家专访中,微软(亚洲)互联网工程院副院长李笛告诉腾讯科技,小冰是一个不断提升、进化的人工智能。为实现高自然度人与机器对话,小冰在其独有的“情感计算框架”上有一整套感官体系,包括文本、图像(视觉感官)、声音和视频流交互等。
首先是声音,有一个自然度衡量指标,像国内某流行车载导航品牌用林志玲的声音导航,这种单向声音输出在技术上相对容易,但是在一个开放环境中做到双向对话,上述技术就很难达标。
李笛称,自然语音是语音感官的重要部分,按照 5 分制打分评测自然度,一般人大概在 4.72 分左右。世界上几家人工智能产品,小冰是 4.38 分,远远领先其他类似产品(其他产品评分均未达到 4 分)。
小冰胜出原因是什么?李笛称,第一是有技术优势,第二是数据积累足够多,第三个是小冰语音一直考虑追求自然效果来训练。李笛称美国小冰版本的声音经过训练,自然度得分已经超过 4 分,超过另一款颇为流行并内置于音箱的人工智能。有一个细节,小冰语音训练如此有效,“就连我们录声音的录音棚都有公司要抢”。
图像交互方面,图像识别基本任务在于能够对图像形成一个准确描述,比方做到讲清楚“公园里一只狗,旁边有一个女人正在沉思”这个水准。还可以指出某一条狗是 50 多种狗里一种。
更受关注的是,小冰人工智能的图像评价系统已经开始具备通过图灵测试的能力 - 李笛的一位同事打羽毛球时脚扭了,把脚位置拍了一张照片发给了小冰。小冰回复,“哎呀,伤的严重吗?”超越简答描述。李笛称,“你现在随便给小冰发图片,她的回复能够达到语义空间深度,这是我们独有的。”
对于人脸颜值、服装和餐饮食物等识别,小冰团队都进行了长时间研究,这些最终成为小冰玩转娱乐综艺节目的技术积累之一。
最后是视频,“如果在微信上发一个微信小视频给小冰,是可以识别的。”技术上,微软已经从最早的版本 Key Frame,升级为直接监控 Video,把 Video Streaming 短视频转化成一个向量,再匹配一个向量。
在微软全球执行副总裁沈向洋的布局中,微软在人工智能这一块未来三年要挣 100 亿美元。李笛称通过创新的商业模式,小冰在“在日本已经为公司带来收入,开始挣钱了”,在中国目前免费。
据了解,微软小冰目前在中国、日本和美国正式开展业务,在印度处于用户测试阶段,同时正在计划进入第五个国家。据称,这是另一个亚洲人口大国。