今天,科大讯飞、百度等已经成功让电视机、汽车能“听懂”你的话——
想象一下,你坐在车里,对着空气说,“我想在附近找个地方吃饭”。你的车会立即回应说“已为您找到附近10个餐厅”。你接着说:“我想吃火锅,还想看场电影。”汽车会筛选出周边有电影院的海底捞大钟寺店。如果你说现在前往,导航就会立即开始线路规划。
注意,整个过程,你不需要说类似“嘿,siri”这样的唤醒词,也不需要动手进行任何操作。对于开车过程中经常冒险调整导航线路的司机来说,这套名为“飞鱼助手”的语音操作系统简直是梦寐以求的行车神器。
现在,讯飞、百度等企业的人工智能已经把科幻片一样的黑科技变成了现实。不仅汽车,电视机、电冰箱、电灯,任何你能想到的电器都能跟你愉快地聊天,并按照语音指令完成各种操作。
所听即所见
世界第一的智能语音是什么样
计算机时代,输入的主要工具是键盘。人工智能时代,语音输入成为主流。而在这方面,中国走在了世界前列——科大讯飞公司已经连续11年获得全球语音合成大赛冠军,百度语音也在今年被MIT科技评为2016年十大突破性技术之一。
目前,两家公司对外公布的语音识别率都是97%。这意味着什么呢?
百度首席科学家吴恩达讲一口软糯的美式中文,记者注意到,当他说到“长段语句”时,最开始系统误听成了“长男语句”。但是经过两三句话后,结合上下文的“音频切分”“切成短的去识别”等内容,系统自动将“长男语句”更正为“长段语句”。
讯飞的语音识别同样达到了高精度。当讯飞集团董事长刘庆峰用带着浓重口音的普通话快速演讲时,显示屏不仅实时出现了中文,还能同步翻译成英语、维吾尔语、日语、韩语等十几个语种。
毫无疑问,新技术已经为人工智能装上了一对堪比真人的“耳朵”。不过机器能听人说话只是第一步,要实现无障碍的语音交流,还需要系统会说话,而且要像真人一样说话。
讯飞的普通话语音合成系统达到了4.5分。也就是说,讯飞语音合成的普通话,比大多数人都要标准、自然。公司在此基础上发展了特殊音色,想让机器给你模仿一段郭德纲的声音或者模仿一段林志玲的声音都没有问题。
百度语音主要聚焦在为合成语音“加入情感”,目前可接近真人发声效果。现场测试表明,57%的用户无法区分真人语音与合成语音,基本可代替真人讲故事。《读者》杂志使用百度的情感语音开发“听书”功能,为农村的留守儿童、老人以及不便阅读的残障人士提供近似真人朗读的听书体验。
可应用在翻译、
智能家居、车载系统等领域
人工智能能听会说,能在各种语言之间无障碍切换,最直接的应用领域就是翻译和速记。
今年11月,上海高级法院招待了11个国家的法院大法官和高层管理。讯飞的翻译转写平台为会议提供多国语言的实时翻译,得到了参会国际专家的高度评价。普通消费者想要体验,可以使用讯飞输入法、百度输入法的语音输入,比打字快得多。
人工智能更大的“野心”是让一切物体都有耳朵,都会说话,特别是智能家居领域,是任何一个企业都不想放过的入口。今年5月谷歌推出了谷歌家庭,苹果更新的iOS10里加入了家庭板块,亚马逊的echo试图用一只音箱操控家里的冰箱、洗衣机、空调等全部家电。讯飞则将自己的语音交互解决方案称为aiui系统,其核心依然是用语音连接全世界。
除了能够跟汽车无障碍沟通的“飞鱼助手”,讯飞的电视机操作系统也已经广泛应用。操作者只要说出“安徽卫视”“中央一台”“锦绣未央第十集”等要求,电视就会自动切换。如果说“我想学英语”“我想玩游戏”,电视也会自动打开应用程序。最令人惊讶的是,在欣赏《冰雪奇缘》中听到好听的歌曲,操作者问“这首歌是什么名字”,系统很快在后台识别、搜索出了《let it go》。整个过程里,系统准确无误地完成了多轮对话和上下文理解,完全没有其他系统例如苹果siri对话时的断续感。
免费开放的系统
所有企业都可以使用
讯飞语音和百度语音的背后都有一个聪明的脑袋:讯飞超脑和百度大脑。简单地说,这是一种深度学习的云端计算机。讯飞超脑和百度大脑都是开放的系统,通过软件开发工具包(SDK),其他企业可以免费应用这一服务。
作为语音市场的老大哥,讯飞在这一领域深耕近20年,能提供从芯片到后台的本地引擎、再到后面的云传输、语音服务的整套解决方案,占据了超过80%的市场份额。
青岛海尔克路德机器人应用了讯飞系统。公司市场部工作人员苏青竹告诉记者,讯飞进入市场早,技术好,他们已经合作多年。现在克劳德机器人可以担任幼儿园老师,在青岛流亭机场担任人工客服,还为泰康人寿定制了保险客服版本。
据介绍,讯飞语音和人工智能开放平台已经覆盖8.9亿终端用户,20万位开发伙伴,每日提供30亿次的服务,其中仅机器人领域全球3000多家机器人采用讯飞技术大脑。百度也在2013年对外开放了语音技术服务,很快得到了市场认可。自上线以来,每日在线语音识别要求从500万次上升到1.4亿次,在线语音合成每日请求达2亿次,开发者数量超过14万人。
爱奇艺公司就应用了百度的语音模块。公司技术总监吴桂林问自己手机上的爱奇艺客户端:“成龙儿子演的电影?”屏幕上立即出现了房祖名参演的电影。
“别看就一句话,但系统不仅要识别我说的话,还要懂成龙、儿子和房祖名的关系,并完成搜索,难度相当大。”吴桂林表示,爱奇艺从2013年和百度合作,应用了百度语音助手,并开发了语义分析技术和知识图谱。目前,爱奇艺用户每天使用语音搜索超过100万次,而且呈现成倍增长。
“识别准确率高、软件开发工具包(SDK)应用方便、技术支持随叫随到。”吴桂林总结百度语音助手的好处时,特别强调了免费,“我们和百度合作的时候,只有百度语音没有真正的流量限制”。
“未来我们会有陪伴机器人、个性化私教、音乐作曲、机器人医生等等。”吴恩达对人工智能的未来寄予厚望,但他认为任何一家公司都无法独占这么多领域和机会,“所以我们的目标就是把人工智能技术输出给大家,近期百度语音开放平台再开放四项免费语音技术:情感合成、远场方案、唤醒二期技术和长语音方案,希望支持其他企业探索有潜力的项目”。