谷歌的DeepMind人工智能公司与牛津大学正在合作一个项目,研发一个具有读唇语功能的人工智能系统。他们从选取了英国BBC的近5000个小时的电视节目,为这个AI系统提供数据库进行读唇语测验,这些电视节目包括《晚间新闻》《BBC早餐和提问时间》等,总共包含了118000个句子。只需要识别说话人的嘴唇部位,该系统就能准确地破译整个句子。在破译从数据库中随机选择的200个片段的测验中,AI唇读系统打败了专业的唇读者。专业唇读者的准确率只有12.4%,而AI系统的准确率为46.8%。
两周前,牛津大学研发了一个类似的唇读系统LipNet,但这个系统的数据库GRID只含有51个单词,而这次与谷歌DeepMind合作研发的AI系统所采用的数据库含有近17500个单词,这是一个很大的进步。而且,GRID数据库中的句子语法也十分单一,比较容易识别,但谷歌DeepMind的AI系统的数据库来自真实的人类语句,语法更加多样和复杂。谷歌的DeepMind公司和牛津大学称将开放其数据库资源,这样LipNet系统也可以利用它进行试验。