百度硅谷实验室(SVAIL)日前宣布推出可以把音频文件转录成文字的SwiftScribe网页应用。该网页应用基于百度深度语音识别系统,转化效率较人工速记快1.67倍,将有望改变完全依赖人工的速记行业现状。
用户可在PC端打开SwiftScribe网页应用,选取wav和mp3格式的文件上传,系统就能马上进行处理,时长1分钟的音频文件可以在30秒内转换完成。但是转录出的文本不会区分大小写、没有标点符号,也没有分段,需要在文本框中手动编辑,然后再导出。这个过程也会被百度记录,用来帮助算法纠正错误,提高准确率。
SwiftScribe目前还处在内测阶段,并未开放。目前该系统可处理1小时内的音频文件,开发团队正努力逐步延展这一时长,未来会增加视频文件的语音识别及自动添加标点符号等功能,并支持更多文件格式。“SwiftScribe会在广泛的领域内带来积极影响,提高生产力,包括医疗机构、法律、商业和媒体。”百度SwiftScribe项目经理吴田说。
长安汽车与科大讯飞日前签署战略合作协议,双方将共同建立联合实验室,在智能语音与人工智能领域开展全面合作。根据协议,双方共同建立的联合实验室将对智能车载语音技术、大数据分析技术、图像识别技术、车载终端产品及车载应用平台进行相关研究。
车载语音交互系统是自动驾驶汽车必须攻克的关键技术。科大讯飞在2016年发布的车载语音系统飞鱼助理可以满足在复杂行车环境下进行通讯、导航等车载互联操作,支持远场识别、全双工、多轮交互、方言识别等,语音交互非常贴近日常口语。科大讯飞执行总裁吴晓如表示,汽车是最重要的语音交互场景之一,长安汽车与科大讯飞将整合双方资源,以期达成语音交互技术的迭代发展。
点评
今年全国两会期间,“人工智能”被写入政府工作报告。未来,智能化是技术发展趋势,而对话机器将成为2017年人工智能的发展风口。
在语音产品迅猛发展的大环境下,亚马逊、苹果、谷歌、微软等科技巨头都在加紧研发各自的语音识别技术。在国内,百度语音识别准确率已达到97%,成为行业领先者,而科大讯飞在语音合成、语音识别、口语评测、自然语言处理等多项技术上也都达到国际水平。目前语音技术发展良好,但应用多为行业级而不是用户级产品。拓展更多语音应用场景,将成为今年智能语音发展的当务之急。