百度宣布在其语音平台向公众开放四项全新语音技术的接口,情感合成、远场方案、唤醒二期技术和长语音,并从即日起将这几项技术免费开放给用户和开发者共享。
据介绍,百度情感合成技术主要聚焦在为合成语音“加入情感”,目前可达到接近真人发声效果。现场测试表明,57%的用户无法区分真人语音与合成语音。尤其是女版声音,基本可以代替妈妈,反复为熊孩子讲故事。《读者》杂志已使用百度情感语音为旗下杂志制作语音版。
百度的远场方案则可在3至5米距离内,达到93%以上的语音识别准确度。这项技术与唤醒技术结合,将推动智能家居的应用。
最值得说的是长语音识别。根据经济日报记者的现场观察,演讲者的讲话基本能实时识别为文本显示。比如,发布会现场,介绍人在说到“长段语句”时,最开始语音并未准确识别,但是经过两三句话后,结合上下文的“音频切分”、“切成短的去识别”等内容,系统自动将“长男语句“更正为“长段语句”。
目前百度语音的识别准确度已达到97%,与近期引起业界关注的讯飞不相上下。讯飞、siri、百度语音占领了我国79%以上的智能语音市场。