本文由魔多(微信公众号:moduovr,官网:www.moduovr.com)原创,转载请联系邮箱 [email protected]。
昨天,软银被爆投资了一家叫 ObEN 的人工智能公司,其实是它旗下 SB Next Media 创新基金投出的第一笔钱。这个基金成立于 2016 年 12 月,主要投资可应用于商业的内容、媒体平台或技术,包括虚拟现实和增强现实。
软银的基金处女投就给了这么一家 “年纪轻轻” 的公司,魔多君很是好奇原因啊!
对此,软银韩国合伙人及创新基金董事总经理 J.PLee 解释了一下:
我们在寻找 VR/AR 公司时,看到了 ObEN,让我们兴奋的是,他们的应用引入了人工智能。同时,他们一流的演讲,一流的计算机视觉和自然语言处理技术,以及优秀的团队都在致力于为消费者创造个人 AI。
魔多君随即去查了查这家公司的融资情况:
2014 年 7 月,获得第一笔种子轮融资;
2016 年 7 月,加入 HTC Vive X 孵化计划;
2016 年 11 月,获得 770 万美元 A 轮融资;
2017 年 3 月,获软银韩国的投资。
可以看出,ObEN 的发展比较稳健。
那么,这家公司到底做了什么,能让软银出手呢?
简单来说,ObEN 可以让你用一张自拍照几秒钟构建你的 3D 头像。
只要用手机拍下正面一张自拍照片,就能两秒钟内生成一个完整的 3D VR 头像化身(照片角度越多,重建效果越精确)。
这个 3D 头像化身还拥有完整表情支撑,让你的 3D VR 头像拥有七情六欲,喜怒哀乐。
比如,委屈的时候是这样的:
愤怒的时候是这样
你开心啦,眉毛抖呀抖,是不是很丑
除了能快速的生成你个人的 3D VR 头像,为了更像你,索性连你的语音也一起生成。
只要录下两分钟的声音,就可以借由语音模拟器,用同样的声音说话、唱歌,甚至可以讲出流利的不同国家语言!
据说两位创始人 NikhilJain 和 Adam Zheng 是因为想让自己的声音时常陪伴孩子,才创立了这家公司。
ObEN 使用的并不是简单的语音合成技术,它的技术可以捕获完整的声波纹。它不是记录单个音节,也不只是语调,然后颗粒输出。而是应用深度学习语音合成,创建任何语言的数字声纹。
比如,你是个美国人,使用 ObEN 技术录下语音,获取你的声音后,可以用你的声音来说中文,就好像你会说中文一样。录制声音也不需要特殊的录音棚,只要一个没有太多背景噪音的地方。
结合以上两点,ObEN 可以构建一个样子像你、声音像你,还有丰富表情的 3D VR 头像。同时,他还可以比你更厉害,唱你不会唱的歌,说你不会说的语言。
ObEN 的优势是将人脸 3D 重建和语音合成相结合,使得合成的虚拟形象更加贴近人类,这样的话,我们是不是很快就能在虚拟世界里 “活过来” 呢?
今年 CES 期间,ObEN 接到了一个商业项目,给凯撒娱乐集团旗下的 LINQ 酒店打造了一个微信机器人(用来迎宾)。
这个机器人叫 Ben,它可以在极短的时间内识别语言、语音并做出反应与使用者进行交流。
除了点击机器人 Ben 身上的触摸屏幕面对面交流来获取周边信息,比如餐饮,娱乐表演,夜生活等等。客人也可以直接向凯撒娱乐集团微信公号直接发送指令,和虚拟的 “Ben” 交流。
(“你们这群愚蠢的人类,见了朕,还不下跪….”)
应用 ObEN 的语音识别技术以后,微信机器人可以将与之沟通者的声音储存一段时间,还可以把该声音应用到任何语言、任何内容的表达之中。
最后,看 ObEN 的集体照,团队成员只有 20 几人,但背景却多元化。他们覆盖了人工智能、机器深度学习(deep-learning)、语音识别/合成,以及电脑视觉 & 图像预测等高度复杂的新领域,而且拥有多项专利和知名的专家顾问团。很有潜力啊!