科技界花了数年时间来创建可与人类相当的语音识别软件。近日,IBM 宣布,公司已经开发出单词错误率为 5.5% 的系统,较去年的 6.9% 单词错误率又有了进一步提高。
微软曾在去年 10 月声称所研发的语音识别系统单词错误率达到了 5.9%,已经十分接近人类的听力水平。但 IBM 认为这还远远不够。IBM 首席研究科学家 George Saon,本周在一篇博客文章中写道:“即便今日已经取得了 5.5% 单词错误率的突破,但公司认为,语音识别系统要与人类水平旗鼓相当,需要达到的水平应该是 5.1%,目前还没有哪家公司能做到。”
为取得 5.5% 这一数字的突破,IBM 将一套名为长短期记忆(Long Short-Term Memory)的人工神经网络与拥有三个强大声学模型的 WaveNet 语言模型相结合,并启用了 20 多年来一直被用于检验语音识别系统的“SWITCHBOARD”语料库。
在 IBM 一份声明中,哥伦比亚大学计算机科学系的 Julia Hirschberg 教授称,语音识别系统要与人类打成平手仍需努力,因为人类的语言是极其复杂的,而每个人对语言的理解能力也有所差异,这进一步增加了定义“与人类相当”水平标准的难度。