在国内,下载好电影后,再去字幕网站搜索外挂字幕,已经是影迷们的固有动作。这种习惯的养成,归功于近10年来逐渐形成的野生网络字幕组,用业余时间为影迷们贡献了大量、快速的免费字幕。
相比国内的野生字幕组,的技术宅们在2009年为Youtube上线了一个自动字幕系统(Automatic Captioning System),借助人工智能技术,在视频里实时生成字幕。时隔7年后,YouTube宣布已经有10亿多条视频采用了该系统生成的字幕,而全球日活跃用户也达1500万。
在Google给定的视频中,可以在设置中选择开启自动字幕,之后视频下方会随着视频中的人声,逐个显示对应字幕。另外,在字幕开启菜单中,也有“自动翻译”的选项,包括中文繁体、简体在内的上百种语言均可翻译。
此外,雷锋网3月23日还报道过,由Accessibility、Sound Understanding和YouTube三个团队共同完成了,通过深度神经网络(DNN)模型,在自动字幕增加音效信息的技术,进一步提升了观众的“看片”体验。
其中,Google Accessibility团队致力于让每个人都能够享用互联网带来的便利,尤其是残障人士,他们主要负责监控Google产品的无障碍状况,协调开展无障碍培训、测试并提供咨询服务。Accessibility产品团队需要接受相关培训,以在产品的设计和发布过程中体现无障碍原则。此外他们还努力与各类用户和致力于推广无障碍功能的团体建立密切的关系,以便征求反馈意见。
而Youtube的自动字幕系统,在很大程度上实现了视频观看的“无障碍”,尤其是听不到声音的聋人,也能通过自动生成的字幕进行高质量的视频信息获取。
Google Sound Understanding团队,此前曾负责AudioSet数据集,致力于教学机器,通过建立状态机器学习模型,生成大规模的音频事件数据集,并定义声音之间存在的层次关系,来准确地感知音频。
目前,国内主流视频网站均未推出过自动字幕系统,不过在坊间流传着一个能够自动生成字幕的软件——Autosub,最初该软件只帮助字幕组成员自动对轴,后来的更新版本调用了谷歌的API,支持自动生成字幕,不过效果不佳,此后鲜有更新。
雷锋网还了解到,2011年《电子学报》的一篇论文称,以《新闻联播》为语料进行训练,实现了音频提取、音频分类与切分、说话人识别、大词汇量连续语音识别、视频文件播放、文本字幕自动生成等功能,从而实现“全自动中文新闻字幕生成”。但此论文中并未提及是否可以做到“实时”。
这项技术的难点在于,一方面一条视频中的声音有很多,包括对白和混合在一起非常复杂的环境声,要辨别哪个声音是我们想要的,并把几个同时产生的声音区分开来相当不易;另一方面视频实时字幕生成,需要在极短的时间内做出反馈,对于计算速度考验巨大。
针对分辨声音而言,搜狗CEO王小川就表示过,目前语音识别已经有了较高的准确度,接近实用,但还有很多的限制。比如需要安静的环境,当有噪音的时候同时有两个人说话机器就搞不定了。搜狗的做法是预先录制,比如在汽车环境里面,预先录制发动机引擎的声音,把没有见过的环境变成机器能够见过的环境,就能够做识别。针对计算速度而言,则需要依靠硬件和算法的进步。
现在能实现的程度,需要归功于过去几年间,DNN技术、Residual/Highway 网络技术和粗粒度建模单元技术的进展。但环境音非常复杂,想要把所有的独立声音预先录下来,是一项巨大的工程。即便是谷歌自动字幕系统的研究人员们,也只是选取了“鼓掌、音乐、笑声”三种语义清楚的背景声。
视频之外,在语音转文字这项技术上,国内外企业多有涉及。比如帮助聋人通话实时将语音转换为文字的RogerVoice,比如新近推出的SwiftScribe、再如国内企业科大讯飞等,还有各类录音、速记应用程序,都能够不同程度的支持语音转文字的技术。一般来说环境越安静,识别的准确率越高。
科大讯飞相关人士向雷锋网表示,视频字幕需求分为两类,一类为已录制视频的字幕配置,另一类为直播视频的字幕配置,科大讯飞的识别技术均可实现上述两类字幕需求。
目前讯飞开放平台已对外提供第一种已录制视频字幕配置需求的“语音转写”产品,准确率可达95%,而对于第二种直播视频的字幕配置产品将在今年年中对外提供。[责任编辑/刘凯]