游客

搜狗速记工具“搜狗听写”注重场景体验 以开放态度助力AI商业化落地

游客 2017-08-10 07:50:53    201379 次浏览

语音记录,是记者、编辑、作家等文字工作者们常用的记录方式。但是,对于记录者来说,语音并不方便后期的整理、分享和追溯,这也导致听语音记录的过程耗时耗力,影响信息的沟通。近日,搜狗推出语音实时变文字的速记工具“搜狗听写”,解决会议、采访、写作等场景下长语音内容转写难题。

而这仅仅是搜狗AI技术商业落地的一小步,目前,搜狗已经建立了强大的语音自研团队,拥有互联网规模最大的语音数据。搜狗语音交互技术中心总经理王砚峰介绍,自去年开始进行AI的技术研发和布局,已经有些产品使用搜狗的AI能力。未来,会在可穿戴、车载、客厅场景下,自主研发更多的硬件。同时,搜狗也会积极推广AI云平台、AI云服务,服务更多的行业伙伴。在更多的垂直产品场景下,做更多好的产品,服务垂直行业的用户群体。

码字效率提升10倍

如果你是一个文字工作者,肯定经常遇到这样的苦恼:参加会议、外出采访的音频文件,整理成文字需要等上几个小时的时间,手动记录的话一不小心就会漏掉重点;身边没电脑又着急赶稿时,手机打字让人心急如焚;突然来了灵感,却苦于不方便记录让好想法悄然溜掉……另外在日常工作和生活中还要整理各种各样的音频文件,工作效率大打折扣。

针对此痛点,搜狗推出一款可以将语音实时变文字的速记工具“搜狗听写”,能够解决会议、采访、写作等场景下长语音内容转写问题,大大提高记者、作家甚至速记工作者的工作效率。

据了解,搜狗听写的功能相当强大,可以支持写文章、采访录音、会议记录、笔记整理、日常记事等场景,帮助用户实现高效记录和信息输入。而且针对不同场景和需求,搜狗听写可以支持“听写”和“转写”两种模式。

在“听写”模式下,录音的同时即可实时给出识别结果,话音落文字出,几乎没有时间差;而“转写”模式下则可以离线录音,录音完成后一次性获取文字结果。同时,为了提高文字整理效率,搜狗听写还贴心地加入了边听边改、无线标重点、多端同步、信息分享等人性化功能,大幅度提升记录效率,让文字编辑更轻松。

另外,搜狗听写还有分享功能,支持文字、图片和链接形式,你可以根据自己的需求选择分享方式,将转写出的文本通过微信、QQ、邮件、微博、朋友圈等分享给其他人。

王砚峰表示,“搜狗听写作为一款多场景的语音听写工具,其产品的关键在于语音识别准确率,而通过大规模的优质语音训练数据和深度学习的技术能力积累,搜狗也将这种语音识别的技术优势转化到了更多的适用场景中。”

技术实力保障场景识别准确率

场景中的语音识别最考验技术的扎实度,用户最关心的也是语音转写准确率。据了解,为了保证在各种复杂场景下都能精准转写,搜狗听写采用了大量的前沿技术。在转写方面,搜狗听写使用了搜狗知音独家研发的长时语音转写技术,并与业内领先的端到端深度神经网络技术深度整合。

由于采用了业内领先的端到端深度神经网络技术,搜狗听写的语音识别准确率已经达到业内领先水平,在支持自动标点的能力方面,可以根据语义自动添加标点,标点类型在满足逗号、句号、问号、叹号的基础上,还率先扩充了书名号。

根据搜狗语音交互技术中心技术总监陈伟介绍,搜狗听写使用了搜狗知音引擎的长时语音转写技术,从立项到现在,错误率已经下降了30%。在声学模型方面,采用了端到端深度神经网络技术Deep LC-CLDNN CTC技术,转写模式则使用了Deep CNN CTC的方式,语言模型基于T级海量输入法文本数据使用神经网络进行建模。

“从去年年底想做这款产品的时候,我们就在考虑,在技术上永远不可能做到100%。反过头来,看大家的需求是什么。大家最关心的是怎么方便大家进行文档的整理,怎么能够更方便进行内容的查找。”王砚峰表示,这款产品识别准确率已经达到领先水平,但做产品的过程中并不是技术导向,而是产品导向。重点在怎么更多地结合用户的场景和需求,把需求和场景结合起来成为好的听说产品。

因此,据了解,在应用场景上,搜狗听写针对用户的使用场景,如开会,写小说等场景进行优化,识别效果较通用效果提升15%以上;还针对图书馆、咖啡厅等不便于大声说话而又有使用语音的场景,提供耳语识别技术,在人的说话音量低至30分贝时,依然可以准确识别。

在工作移动化、时间碎片化的今天,如果你经常面临需要录音的工作,不妨试试搜狗听写,相信工作效率会大大提升。据了解,搜狗听写有iOS和安卓两个版本,用户可根据自身需求下载安装体验。

人工智能是新“赛道”

语音速记是语音识别技术的应用之一,主打AI的搜狗也是其中一家,目前,搜狗已经建立了强大的语音自研团队,拥有互联网规模最大的语音数据。

王砚峰介绍,搜狗知音是搜狗一年前发布的语音交互引擎,主打“自然交互+知识计算”的技术战略。发展一年之后,目前已经完善了引擎架构:基于搜狗输入法和搜索引擎两个入口,以大数据+深度学习为基础,上层建造语言 AI+语音AI+图像AI,再延伸至对话、翻译、TTS、OCR、识图等。搜狗的语音识别技术服务的日访问量也从2015年的0.55亿次/日一路发展到2017年的2.6亿次/日。为搜狗智能语音系统提供了海量的真实语料数据,使得机器不断学习,识别准确率越来越高,可应用的场景也越来越广泛。

事实上,AI是搜狗未来重要的核心战略。搜狗CEO王小川也很早就为搜狗写下了人工智能的新故事。王小川曾表示,“人类对于人工智能的终极描绘,始终是同人一样进行自然的语言交流,这也是搜狗人工智能的发展目标。”而以语言理解为核心,让输入法走向对话系统,让搜索走向问答系统的搜狗,势必也将成为未来智能生活最重要的入口之一。

不久前,王小川在发给内部的全员信中表示,搜狗已完成了向移动的转型。王小川在内部信中把搜索比作“竞争激烈的赛道”,称搜狗取得了阶段性成功,人工智能则是下一个赛道。在他看来,未来搜狗将继续以语言为核心,在“自然交互 知识计算”的技术路线图上继续探索,改进人机交互界面,研发未来交互问答式的下一代搜索引擎新形态,成为中国人工智能领域的创新者和引领者。

坚持差异化产品布局,着力人工智能是搜狗搜索稳居第二的关键所在。在王小川看来,“搜索即AI”,业务上也呈现出机器翻译、输入法、AI开放平台等多条产品线并发的局面。未来的颠覆性技术力量是人工智能,而搜狗是为语言理解而生。“我们将基于对自然语言的交互和计算,将搜索升级到问答系统,将输入法升级到对话系统,并通过翻译将中文世界与全世界连接。”

AI商业应用年底持续落地

随着语音识别性能力的提升和市场教育的完成,基于语音交互的垂直场景应用将日益成熟。行业预测,未来1~3年将迎来产业 高速发展期。同时,基于智能语音交互垂直场景如,家居、车载、可穿戴、机器人等将备受追捧。

在此背景之下,此次推出搜狗听写产品,是搜狗语音深入用户垂直场景下的又一个全新探索,通过更加专注于特定的场景和人群,去理解用户需求、解决实际问题,从而让语音技术为更多人所用。

按照过往的行业发展经验,产品落地孰先孰后,似乎并不是决定性的因素,可是目之所及,人工智能的产品落地,已经趋向白热化了。综合搜狗在人工智能上的产品布局,我们可以清晰地发现,让人工智能更“接地气”,已经成为搜狗在人工智能领域的独特标志。

王砚峰表示,在未来一年里,搜狗AI将会在更多的产品落地:一是可穿戴、车载、客厅场景内自主研发更多硬件;二是进一步推广AI云平台;三是在更多用户垂直场景下,推出更多用户产品。

“搜狗听写与其他的差异在于两点,一是其他产品不能像搜狗听写那样支持长时间录音+免费转写支持,二是搜狗听写更面向垂直场景,在记者采访、作家写作等场景下进行了功能优化(比如加入远程蓝牙标注重点技术),为用户带来更好的产品体验。”在回答竞争力的问题上,王砚峰显得信心十足,而且有着清晰的逻辑。

在搜狗看来,在车载和家庭市场,虽然玩家很多,但市场格局还没有形成。当市场格局还没有形成,且距市场成熟期还很早的时候,就有机会快速地抢占市场,开发自己的产品,并且掌握市场份额。

除了自我研发智能硬件,搜狗还将以开放的态度共享AI技术。王砚峰表示,目前的中小开发者对于智能语音入口的产业格局是形不成有力威胁的,牌还是在巨头的手上。搜狗做这件事情是为了抢夺未来的语音入口,会找适合自己的几款,最有用户痛点的几款硬件,同时也会与合作伙伴合作,这两个之间并不存在非此即彼的关系,它们之间是互补的关系。

内容加载中