微軟小冰首次進駐綜藝節目 揭祕其背後技術推動力

微软小冰首次进驻综艺节目揭秘其背后技术推动力

4 月 16 日，湖南卫视芒果娱乐正式推出综艺新栏目《超次元偶像》，在北京举行的发布会上，微软人工智能“小冰”出现并参与互动、游戏。

发布会上，小冰不仅与何炅、何冰、徐海乔等嘉宾主持调侃互动，还现场测试评价明星选手以及栏目总导演的颜值，献唱歌曲《好想你》，并联合太湖之光超级计算机运用大数据生成了最帅人像。

虽然小冰在栏目中的戏份还在保密阶段，但从发布会现场的环节安排上看，这档综艺节目中小冰应该不是配角。2017 年初，李开复曾提醒综艺主持人们“小心人工智能小冰抢饭碗”，3 个月过去，这似乎就要成为现实。

这是小冰一年多来在东方卫视主持早间新闻节目之后，首次在国内进入互动综艺节目场景。

进入综艺节目对于人工智能要求明显要更高。在不久前的独家专访中，微软（亚洲）互联网工程院副院长李笛告诉腾讯科技，小冰是一个不断提升、进化的人工智能。为实现高自然度人与机器对话，小冰在其独有的“情感计算框架”上有一整套感官体系，包括文本、图像（视觉感官）、声音和视频流交互等。

首先是声音，有一个自然度衡量指标，像国内某流行车载导航品牌用林志玲的声音导航，这种单向声音输出在技术上相对容易，但是在一个开放环境中做到双向对话，上述技术就很难达标。

李笛称，自然语音是语音感官的重要部分，按照 5 分制打分评测自然度，一般人大概在 4.72 分左右。世界上几家人工智能产品，小冰是 4.38 分，远远领先其他类似产品（其他产品评分均未达到 4 分）。

小冰胜出原因是什么？李笛称，第一是有技术优势，第二是数据积累足够多，第三个是小冰语音一直考虑追求自然效果来训练。李笛称美国小冰版本的声音经过训练，自然度得分已经超过 4 分，超过另一款颇为流行并内置于音箱的人工智能。有一个细节，小冰语音训练如此有效，“就连我们录声音的录音棚都有公司要抢”。

图像交互方面，图像识别基本任务在于能够对图像形成一个准确描述，比方做到讲清楚“公园里一只狗，旁边有一个女人正在沉思”这个水准。还可以指出某一条狗是 50 多种狗里一种。

更受关注的是，小冰人工智能的图像评价系统已经开始具备通过图灵测试的能力 - 李笛的一位同事打羽毛球时脚扭了，把脚位置拍了一张照片发给了小冰。小冰回复，“哎呀，伤的严重吗？”超越简答描述。李笛称，“你现在随便给小冰发图片，她的回复能够达到语义空间深度，这是我们独有的。”

对于人脸颜值、服装和餐饮食物等识别，小冰团队都进行了长时间研究，这些最终成为小冰玩转娱乐综艺节目的技术积累之一。

最后是视频，“如果在微信上发一个微信小视频给小冰，是可以识别的。”技术上，微软已经从最早的版本 Key Frame，升级为直接监控 Video，把 Video Streaming 短视频转化成一个向量，再匹配一个向量。

在微软全球执行副总裁沈向洋的布局中，微软在人工智能这一块未来三年要挣 100 亿美元。李笛称通过创新的商业模式，小冰在“在日本已经为公司带来收入，开始挣钱了”，在中国目前免费。

据了解，微软小冰目前在中国、日本和美国正式开展业务，在印度处于用户测试阶段，同时正在计划进入第五个国家。据称，这是另一个亚洲人口大国。

微软小冰首次进驻综艺节目 揭秘其背后技术推动力