从锤子科技发布会,到乌镇大会搜狗 CEO 王小川的演讲,语音识别和机器翻译技术成了万众瞩目的焦点。一夜之间,传统的键盘输入法似乎即将被颠覆,语音输入法技术真的有这么牛吗?
编者按
乌镇大会上,搜狗 CEO 王小川用自己的演讲首秀了语音识别和机器翻译技术实现的机器同传功能;锤子发布会和讯飞发布会也向观众演示了语音输入产品。这些现场展示,将语音输入直接带到了大众面前。大家感觉新鲜的同时,很大程度也惊讶于语音输入的准确度,它甚至超乎了我们的想象。
搜狗、科大讯飞、百度等国内巨头公司在语音输入上,从技术到产品行业应用,都做了很多探索。那么,如何从技术上理能语音输入?智能语音给日常生活带来了怎样的影响?
InfoQ 在 10 月份的时候联系了搜狗公司桌面事业部高级总监,桌面研究部和语音交互技术中心负责人,王砚峰。他同时负责搜狗智能语音业务,带领语音和语义技术团队实现了业内顶尖的语音交互能力,目前致力于智能语音技术的产品化创新。本文由采访资料整理而来。
前言
我们都知道搜狗的一个核心产品就是输入法,2011 年的时候,语音还没有像现在业界这么火,但是他们认为语音输入一定是未来很重要的一种输入方式。所以,搜狗开始布局自己的语音技术,并在一年之内快速把自己的技术做起来,于 2012 年 1 月上线第一个版本。现在搜狗输入法单日语音请求突破 1.9 亿次,是国内第一大语音输入应用。
发展到现在,通过人工在真实环境下进行评测,语音输入准确率已经达到 97%。评测条件是对着多家手机,考虑人的口音和环境噪声,在真实环境下,如麦当劳、食堂、路边去做对应测试。在这种环境下测试的结果,国内做语音输入的公司中,科大讯飞准确率也是 97%
搜狗语音功能能够高效上线,究其原因,第一是借助于搜狗输入法垄断的市场地位。搜狗每天能收集到的用户真实语音数据有十几万小时,里面包含了各种用户真实场景下的噪音,口音等;第二背后有搜索服务的支持,这也是早年间为什么能快速推出语音助手的原因。
搜狗拥有各个垂直搜索以及对应的知识图谱,这对语义理解和对话的帮助极大。搜狗语音输入法每天有几十个亿的 PV,搜索每天有上亿,拥有海量的真实数据确实是一大财富。
你的语音是如何转变为文本的
搜狗语音识别的总体架构:
搜狗采用的是主流的语音识别流程。语音识别整体都可分成两个大的部分,第一部分是训练,采集大量语音,通过训练工具训练声学模型和语言模型。训练声学模型需要采集大量的标注语音,而语言模型训练需要有大量的文本。
第二是在训练完成的模型指导下,使用解码器对输入语音信号进行识别,寻找最优的词序列作为结果输出。整体流程请见图3。识别的公式如图 4 所示,可见声学模型主要描述发音模型下特征的似然概率;语言模型主要描述词间的连接概率;发音词典主要是完成词和音之间的转换,其中声学模型建模单元一般选择三音素模型,以“搜狗语音为例”:
图 1 语音识别系统流程
图 2 语音识别原理
需要注意的是,输入特征矢量X代表语音的特征。
「目前不管是科大讯飞还是其他大的互联网公司,大家的技术基本没什么质的差别。」
声学模型上,12 年上半年开始做语音识别的时候使用传统高斯混合分布。12 年终,微软的深度学习语音识别成果出来后,搜狗开始跟进这个成果。于 13 年 Q2 上线了深度学习模型。开始时是用 DNN,错误率就下降了 30%。然后模型更复杂后结合了 CNN,错误率再次下降 20%。随后混合 LTSM 形成多种网络结构,再度提升了 10%。
王砚峰说搜狗于前一段时间开始做 CTC,使用端到端的方式进行声学建模。而目前在工业界,去年 10 月份,百度号称是降低了 20%。谷歌大概是降低了 10%,随后是搜狗,降低了 10%。“现在整个语音识别也会有两个大的流派,一个大的流派就是基于像 LTSM-RNN 这种方式,还有一种大的流派是把 CNN 的部分强化的更多,就是把它变成一个层数更深的 CNN”。
LTSM CTC 适合于工业界,在效率上也会比后者高,谷歌语音也已经实现并上线了,目前在国内搜狗跟百度是属于前者;科大讯飞走得是后面这条路径,讯飞花了更多时间在技术探索和品牌效应上。
整个处理流程中最耗时的是声学部分。目前的复杂网络集中在声学部分,但是这并不代表语言模型不行,而是现在语言模型都基于传统的马尔科夫模型,如果整体都使用神经网络模型,开销就会大大降低。现在的问题是如果在声学上使用深度学习模型,计算力就无法达到。
比如之前搜狗使用 CPU 进行运算,声学部分就占据了 60%-70% 的计算开销。使用 LTSM 技术之后,识别效果变得很不错。随着数据量再增大,模型变得更加复杂,要想取得更好的效果,用 CPU 就完不成任务。但是如果将 CPU 全部转为 GPU,计算能力就会大幅提高。最近搜狗开始完全转为 GPU,换 GPU 以后,无论效果还是性能都有明显提升。
语音输入痛点和解决方法
语音输入痛点有很多,比如口音、方言、多人说话、噪声、吞音、远场等等。吞音现在业界解决的普遍较差,比如一旦吞音以后,从声学上很难捕捉到特别细小的信息。但是语言模型如果做得太强势,将会产生反作用,包括鲁棒性也会受到影响。大家现在所说的准确率 97%,就是基于一种相对理想的环境。
现在的痛点:第一是需要能够从吞音和语速,包括从用户的自然连读上做得更好;第二点,是需要在有噪音的情况下将鲁棒性做得更好。旁边有人说话,或者旁边有很强的背景音乐,都能够做到准确的识别。第三点,是远场。比如把一个音箱放在离你 5 米远的地方,这时候去说话,识别就很困难。
对于去噪,本身有两种流派。第一种流派是往数据当中加大量的噪音,相当于让训练数据去加各种场合的噪音。在训练的过程当中,去拟合更多的这种场景,去见更多的场合,统一通过声学模型去做。还有一种是最近两年才流行起来的方式。当然以前也有,但这两年在这方面学术成果比较多,就是语音增强,就是怎么能够在噪声当中,把噪声先通过预处理压下去,突出语音,减轻后续工作。
但是语音增强也会有问题,如果做得不够精细,效果不够好,甚至有可能变差;现在已经有很多方式把 DNN 引入到语音增强当中,但实际上还需要很大的计算力。这个计算复杂程度有的时候甚至不输于后端。这一块目前学术界已经有成果出来。
在数据预处理上搜狗有一个比较好的一个方法。在语音识别结果当中,通过一些产品设计来判断用户当前是否使用了文字结果,比如识别结果出来,用户却删掉了,就说明识别结果不够准确。这样的语音,需要重点在模型训练去使用。
智能语音技术如何影响你
各种发布会后,相信有不少朋友会去下载语音输入 APP,研究下功能和性能。但是下载之后你还有哪些时候会用到语音输入?和朋友聊天时绝大多数还是会习惯于打字吧。那么智能语音什么时候能影响到你?智能语音的市场已经爆发了吗?
语音交互目前在手机端比起文字交互来讲差距还很大的。目前每天会使用语音输入的用户占到8-10% 左右,这仅仅是 UV 比例,如果是 PV 比例那就更低。老罗在锤子发布会上给讯飞做了一把宣传以后,当时讯飞语音输入着实火了一阵,这也说明一般用户对于语音功能的认知是远远不够的。
目前手机上语音输入的场景分成两类:一种是用户当前确实不方便打字,会选择使用语音。另一方面我们看到年轻人会更加喜欢用语音的方式进行输入,觉得这种行为更具有 style,更好玩儿。
「哪些语音交互场景最具增长潜力,以及能快速规模化应用?三个有价值的场景,车内,客厅内,以及可穿戴。」
引用一下今年互联网女皇在她报告中提到的,美国同学们使用语音的主要原因和场景:
“不过这几个场景爆发的顺序有先后。我认为,首先是车,然后是智能家居和可穿戴。”
“车的场景和需求最明确,产品定位也最明确,所以语音的目标也最明确,从产业步伐上来看,目前车内导航语音普及率也是最高的。”
最直观的就是车内的智能导航,以及一些周围查询和用车问题。因为在车内你的双手和双眼都是被占用的,当你有临时性需求时,语音是一种最好的满足方式。另外就是用户在路上产生的常见问题,比如顺便加油、听 FM,回微信消息等。
“智能家居目前围绕电视和音响,具体的需求主要是搜片和听歌(以及 FM 等),这方面的需求比较明确。但是目前市场有些过热,比如一个以听歌为主要产品场景的音箱,已经被大家定位成未来家庭智能的入口。”
可穿戴,比如智能手表。“可穿戴我认为是最晚的,因为市场上产品还没有成为刚需,比如智能手表,给用户带来的价值,其实是远小于我们内心预期的。”
也就是说语音生态并不是直接面向消费者,而是面对 To B 客户的,是 B2B2C 的过程。消费者必然是通过一些中间智能终端产品,比如车载设备、智能家居设备、可穿戴设备,以解放你的双手和双眼,来感受语音输入带来的便利。
未来语音输入应用的破局点在哪里
「不管是技术也好,产品也好,当它给用户带来价值的时候,一定是用户有刚需的时候。」
很多用户需求是伴随着场景出现的,就像我们现在在手机上语音输入的使用率不到 10%,这说明什么?用户在很多场景下是不需要这种产品的。“我们其实并没有说,从这种发展上或者从这种场景上,希望用户能够百分之百使用语音输入,这也不现实,本身也不对”。
但是什么样的群体需要?是老人、小孩,或喜欢酷炫的年轻人。用户在什么样的场景下真正需要这个产品?在办公室里根本不需要这样的东西,更多的需求产生在户外和在家里的时候。
所以从语音输入发展看,可以分成两个维度去谈,第一个是对人,第二个是对机器。
输入法就是对人。包括搜狗新研发出的语音翻译,语音翻译是针对外国人;语音输入是针对中国人;而搜索以及云助手是针对机器。对人和对机器的需求是不同的。对人需要更多是考虑他的场景和痛点以及使用设备情况。比如不方便打字或者打字能力太低的时候,就需要语音输入。
如果未来你在音箱上放一个聊天功能,而且大家真的去用音箱聊天,那么音箱肯定是没法通过键盘进行输入的,只能通过语音输入方式。所以说语音输入一定是会伴随着用户的需求跟场景以及用户使用特点去讲的,而不是说未来一定会彻底代替文字。
现在搜狗搜索或者语音助手的延伸,更多的是怎样更好的服务当前的一些需求。比如上面所说的在开车的时候,不可能边开车边用双手去按键,眼睛也需要看路况,那么在这个时候怎么能够让机器去解决一些问路或找加油站的事情呢?这时候就可以使用语音输入来进行交互。产品价值要跟用户需求和场景放在一起去谈。
但是针对机器来讲,未来会有更广阔的市场空间,因为未来的植入设备,尤其是满足于垂直领域的智能设备会越来越多,电视变成智能电视,音箱变成智能音箱,手表变成智能手表,很多东西都在智能化。因为在智能化的过程中,只要它能够提供内容,那么它一定是有用户搜索的需求,只要有用户搜索需求,就有语音的价值,就是主流的价值。
目前搜狗的智能语音应用布局,王砚峰说有两个重点:
第一个重点,是 PC 普通用户的市场,因为搜狗是一个互联网公司,首先需要在互联网这条主线上把事情做好。而且大家都知道,像图像目前在安防和自动驾驶领域应用较热。但是在普通用户消费品上,图像产生贡献不大,普通人很难体验到图像处理能力,图像这块目前还没有成为人机交互的主要方式之一。
而现在的人机交互主要还是通过高纬度的信息去交互的,这个高纬度的信息就是语言:文字和语音。“所以未来,在用户产品上,我个人觉得语音是一个在 10 年之内能够比图像更接近用户需求,并能够产生用户价值的一个领域,而这也是搜狗目前的核心路径之一”。
目前搜狗输入法和搜索的核心路径就是输入交互。就未来的人工智能战略而言,搜狗的核心战略就是:自然交互 知识计算。而语音在交互上承载了一个非常重要的任务,所以第一件事应该是如何在产品上更好的服务用户,包括能够在技术上产生更多好的用户产品。
第二个重点,实际上,未来不管是人工智能市场也好,还是硬件市场也好,都将走向分化的发展方式。比如国内硬件公司在这个方面就特别擅长,第一类就是产生内容公司,如喜马拉雅。第二类,就是中间把设备和内容联系起来的公司,这种做连接的公司也就是人工智能公司。
而比如音箱,导航,不可能是语音输入公司自己做,但是用户确实是在这样的产品上进行语音交互,从而获得服务拿到结果。以前是 PC 时代,当前是手机时代,但是未来不管是智能设备也好,可穿戴也好,这些市场一定会慢慢起来。所以现在也不单纯是 2B 的市场,是 B2B2C 的市场,产品提供出来最终是要面向用户的。
“除了做好自己的产品以外,确实还要考虑,怎么把从语音到搜索、从交互到内容提供的完整体系提供给一些我们认为有价值的厂商,用好的产品同他们联合研发,更好的提升用户体验,这是我们的思路。”
关于语音输入的研发过程,王砚峰说他最大的感悟是:需要用一个好的产品来推动技术发展,并且产品能够反过来促进技术进步,从而形成一个闭环。如果是去定位一个技术专家,那么技术专家他不需要去理解产品的逻辑或者市场逻辑,只需要渐渐的去推动这个技术发展。
但如果要做一个技术方向,并且把这个技术方向作为公司未来的一个主要方向,那么就一定要去把产品和用户形成一个好的闭环。这也是语音能够快速发展的原因。“
综上,语音技术什么时候能爆发,还是要取决于:
第一,车联网以及智能家居等产业的进一步成熟,能给用户带来真正的价值,让用户在这些产品上产生切实的消费,而不仅仅是体验一下。这样产业和产品的需求就会反过来推动技术的进步。
第二,语音的鲁棒性的问题需要进一步解决,比如远场,噪声,多说话人等问题。当然这是一个渐进式的过程。
第三,自然语言的理解能力也需要更大的提升,机器更懂得用户的意图,才能给用户带来更稳定的体验,产品才真正的可用。
所以爆发不仅仅是技术层面那么简单,而是从产品设计到技术能力,都要比现在有一个更好的提升。
作者简介
王砚峰,搜狗公司桌面事业部高级总监,桌面研究部和语音交互技术中心负责人。带领桌面研究团队承担输入法、号码通、个性化新闻等搜狗桌面产品在大数据和算法研究方面的工作,通过研究能力提升产品核心品质推动产品创新。
同时负责搜狗智能语音业务,带领语音和语义技术团队实现了业内顶尖的语音交互能力,目前致力于智能语音技术的产品化创新。
感谢木环对本文的审校。