新浪科技 李根
11月25日,科大讯飞轮值总裁胡郁在海宁拿下了2016年十大潮流人物的奖项,而此前一天,他刚在科大讯飞的2016年度发布会上,代表讯飞发布了数款AI产品,并且值得一提的是,凭借语音合成H5,讯飞的产品一时刷爆社交网络。
实际上,早于今年10月18日上海,在合作方锤子科技新品发布会上,凭借罗永浩的成功演示,讯飞语音输入法就引起过外界热议。
实际上,如果考虑到创立17年的讯飞一直致力于语音为入口的人工智能研发,那输入法引起的轰动只是自然而然的结果。
然而,作为一家此前一直面向B端企业合作的公司,讯飞在C端用户的感知上,相对薄弱一些。不过现在,随着2016年人工智能的大爆发,科大讯飞开始从幕后走到台前,从B端合作更多开始面向C端发布消费级产品和应用。
在接受新浪科技采访中,科大讯飞轮值总裁胡郁谈到了围绕AI引起的一系列变化,并表示对于科大讯飞和其开放平台上的初创企业来说,一个新的时代才刚刚拉开序幕。
值得一提的是,这位科大讯飞轮值总裁还透露,就在近期,讯飞内部进行了组织架构调整,他将卸任科大讯飞研究院院长,出任新成立的科大讯飞消费者事业群总裁,也就是说:讯飞方面将会有更多消费级的产品和应用发布。
以下新浪科技专访讯飞轮值总裁胡郁实录:
新浪科技:科大讯飞的年度发布会非常惊艳,特别各种新产品、各种黑科技,让大家眼前一亮。在发布了那么多的东西里您最喜欢哪个产品?
科大讯飞胡郁:这次我们发布会发布了一系列科大讯飞的人工智能,也是人工智能超脑计划方面一系列的技术进展和最新产品的进展。其中最喜欢两个产品:
第一,讯飞万物互联输入法。我们知道讯飞语音输入法在中国是体验最好的输入法,现在已经有4亿用户,每个月月活超过1亿,用语音可以快速的在手机上进行输入。但是现在随着移动互联网时代逐步稳定,我们马上要进入物联网时代,用户需要和机器人、玩具、电视、车载、穿戴式设备、VR进行信息输入,在这种情况下,你会看到没有屏幕或者屏幕很远,或者触摸不大屏幕,所以这种情况下一种什么样的输入法能够真正帮助最终用户在这种场景下输入的,这是我们关心的,所以万物互联输入法横空出世了。我们将现在最先进的语音输入这种非常快速的输入方式与手势、肢体输入以及图像输入,你写一个内容也可以帮助你输入进去,把他们综合起来。既可以保证快速便捷,又可以保证输入的最终是可以确定的。比如说有一个字你就是输入不出来,你就用手势直接输入就可以了。所以,我觉得万物互联输入法是我最喜欢的产品。
第二,这两天也在各个朋友圈被刷屏的罗永浩语音合成,虽然老罗亲临了我们发布会现场,但现场用合成的罗永浩的声音讲了一段话,很逼真。于是我们和锤子科技一起开发了HTM5的页面,只要大家输入文字就能让“老罗”读出来。
另外还有一个神秘的客人——奥巴马,而且奥巴马不仅仅可以讲英文,输入中文可以用奥巴马的腔调给你说中文,所以这个产品非常有意思。其实我们有一系列的产品叫做“配音阁”和“快听”,将来我们还希望给每一个智能硬件都赋予独特的声音的音色的特点。以上两个产品是我最喜欢的,虽然其他产品都很好。
新浪科技:其实现场很惊艳,因为大家不知道罗永浩那个声音是合成出来的,以为是本人在讲,这个合成为什么可以精细到如此的程度呢?背后的原理和技术有哪些?
科大讯飞胡郁:关于语音合成,科大讯飞为什么能够把它做到世界上最顶尖,取决于两个方面的因素:
第一方面,大家知道科大讯飞刚开始成立公司的时候做的就是语音合成。所以这么17年来,包括在实验室里又有大概15年以上的积累,都是在做和声音相关的规律研究,它的语音学、韵律学、声学、数字信号处理等各个方面的研究,这些方面长期的积累是非常重要的因素。
第二方面,第三次人工智能的浪潮其中一个非常重要的技术是深度神经网络,深度神经网络可以用来做图形识别和语音识别,大家不太了解的是它可以用来做语音合成。科大讯飞从2011年,这也是深度神经网络的推广人之一,的研究院的邓立研究员,亲自在今年的世界人工智能大会上提到了,世界上是和讯飞最先把深度人经网络用在产品上。所以,对深度神经网络非常透彻的了解也是第二个非常重要的因素。
现在大家听到的是我们用神经网络,结合我们几十年来对语音的了解。比如说刚才提到的奥巴马的音色和语言,英语或者是汉语,这个特征分开,这是一项非常独到的技术。以前可能有一些公司展示过这样的小样,但是从来不能提供一个在线上可以任意的真正让你试用的产品,这一点对于我们来讲是极大地突破。标志着这项技术已经完完全全的走向了使用了。
新浪科技:现在一方面人工智能开始成为一个大趋势,科大讯飞也是由一个非常扎实做产品、做技术的公司开始走到了台前,走到了潮流之尖,您怎么去看待它越来越多的面向C端的产品,未来科大讯飞还有没有能够让用户直接使用的产品,而不是说只做底层技术。
科大讯飞胡郁:这个问题提的很好,人工智能和智能语音可以用在几个方面:
第一,和各个方面的行业结合,我们这次发布会提到了,和教育、医疗、司法、安全、金融,这些产品一定是 To B 的,甚至是 To G 的,和智慧城市的结合。
第二,人工智能和语音一定会改变我们和智能硬件、和各种各样智能产品之间的交互方式。现在万物互联输入法,包括去年推出的AIUI都是为了达到这个目的。
科大讯飞在将来的物联网时代,如果用人工智能改变整个生活的话,我们希望通过很多种组合的不同方式,一方面我们会做一些非常典型的、有代表性的产品,比如说和合作的叮咚音响,现在是中国乃至世界上最好的中文音响。比如说今年发布的晓曼客服机器人,这个机器人以后会走入家庭。
但是我们相信一点,将来的万物互联的时代,将来物联网的时代,用户看到的大众产品是丰富多样的,是非常多样化的,不会集中在一两个产品或者工具型产品上,这是智能型产品最大的特点,和以前看到的手机、PC、电脑、家电都不太一样。所以,除了在一些标杆性的产品上我们会推出直接给用户提供最极致性的体验,除了标杆性产品之外,我们会提供完整的后台服务,这个服务不仅仅是技术,包括技术到内容、服务、资源的连接,甚至我们会提供后台的资源。
大家今天看到的包括罗永浩的声音,包括奥巴马的声音,包括我个人的声音,包括将来每一个父母的声音,都会成为万物互联时代背后的资源,这两个方面我们会相辅相成。
新浪科技:刚才您也提到了晓曼机器人,这是讯飞此次推出的服务于银行的机器人产品,她通过语音实现和用户的交互,但讯飞也展示了语音合成方面的逼真性。如果用合成语音模仿我本人涉及到银行安全,这个讯飞是怎么考虑的?
科大讯飞胡郁:人家说“道高一尺,魔高一丈”,或者是有矛有盾,逻辑是这样的,我们从两个方面来看:
第一,当你要看质疑盾去抵挡矛的话,最好的方式是你是知道矛是怎么做的,当我们知道现在的语音模拟是采用什么样的技术方案的时候,当我们把它做到最好的时候,自然而然的怎么去对它进行防备,我们是一清二楚的。虽然在我们人类听来这些声音差不多,其实从我们算法本质上来讲,我们完全知道它的背后计算机听起来有哪些缺陷,可以非常方便的识别出来。
第二,从应用的角度来讲,技术的发展不以人和公司的意志为转移的,我们不做国外的公司也会做,现在我们自己做了,大家用的更多,我们可以做到一点,我们在这些语音里可以埋各种各样的水印或者隐藏的信息。这样在我们的信息安全方面反而更安全。就像大家说芯片是可以用来放炸弹的,但是如果这个放炸弹的芯片是我们自己做的,而不是别人做的,我想只会更安全,而不是更危险。
新浪科技:在发布会上,讯飞还声称将帮助更多人工智能创业公司在没有巨头资源的情况下和巨头竞争,如何实现?
科大讯飞胡郁:其实是这样的,我们都知道现在的开发中,其实20万的开发者主要有三种不同的人:
一是巨头,大的公司,其实他们也在用我们的语音,包括,在新浪里就有语音搜索,最早新浪微博的语音搜索,包括现在还一直连在我们云服务上。
二是已经成规模的公司,那些公司已经有比较强的开发力量。
三是真正的创新创业者。
大家可以想象一下,在人工智能时代到来的时候,其实整个的机会对大家是不公的,因为大的公司反而容易聚集到更多的人才开发出人工智能,而小的公司是很难的,特别只有几个人的团队,我把它叫做原始核心技术系统创新的人工智能开发出来。
所以,作为一个公开性的平台,讯飞集中了中国乃至世界上最先进的科学家、工程师,和我们这些运营的人员,我们把这种人工智能的技术提高到一个非常高的高度把它开放出来,对于开发者是免费的,这样极大地降低了开发者利用人工智能的技术来做微创新和产品创新的门槛,使他们有机会在和大的巨头同样的商业机会面前也能够有这样的可能性。其他的还是一样,开发者还是需要市场推广、运营、品牌宣传各个方面的能力,但是不需要建立一个全世界豪华的团队给我们做人工智能的技术了,我觉得就这点而言,我们给所有的开发者在人工智能时代提供了一个非常公平的机会,我觉得这一点是最重要的。
新浪科技:其实很多的创业者或者开发者也非常感谢有科大讯飞的企业,让他们能够有更多站上潮流的机会。
科大讯飞胡郁:对,他们只要发挥他们的微创新和产品创新方面的优势,同样有可能抓住这波浪潮中的非常大的机会。