文|李东楼
又到年末,回顾一年来人工智能的发展,语音识别技术正处于快速发展阶段。正如在之前由国际知名科技期刊《麻省理工科技评论》(MIT Technology Review)评选出的“2016年十大突破技术”,语音接口技术位列其中,该技术可将语音识别和自然语言理解相结合,为全球互联网市场创造切实可用的语音接口。
在东楼看来,随着场景声音辨识技术的加速完善,语音识别技术有望迎来真正的拐点,未来发展空间将进一步扩大。而国外的谷歌、苹果,以及国内的科大讯飞、搜狗等公司都是这一领域的大玩家。
从智能语音识别、语义理解到如今最热的实时翻译,搜狗语音并不是一开始就有如此优秀的表现,而是经过了数年的产品演进和技术进化才达到今天这样的水平。而回顾搜狗在智能语音技术方面的进化历史,甚至还能够看到未来的智能语音技术发展的方向和前景。
智能语音的进化史
首先让时间回到移动互联网的爆发初期的2012年,当时由于苹果Siri功能推出,语音助手软件曾经风行一时。不仅包括搜狗、百度等搜索引擎公司基于自身的搜索引擎的基因,纷纷推出了独立的语音助手应用,还有一些创业公司也希望能够从语音搜索入手,期望成为下一代搜索引擎入口。不过,与Siri一样,这些语音助手产品不仅语音识别率低,而且还经常答非所问,且只能提供一些简单的询问天气、介绍餐厅等初级功能,无法进行复杂的多轮交互对话,因此在经过了短暂的市场预热之后迅速进入低潮,而这些语音助手们也纷纷沉寂,甚至停止了更新。
在此之后,包括搜狗在内的这些提供智能语音服务的公司纷纷转入技术积累的低调期,并陆续推出了基于云服务推出语音云开放平台,希望能够开放自己的语音识别、语义理解等语音技术能力,吸引更多的第三方合作伙伴,一起搭建生活服务入口。不过,尽管搜狗在智能语音的技术一直在向前演进,语音识别率越来越高,但是由于更多将服务转向了b端,因此并不被普通用户熟悉。直到罗永浩在对锤子手机功能的演示时提及,才使得人们第一次意识到原来智能语音技术已经演进到了现在这个地步。
实际上,第一次引爆智能语音技术并让其受到追捧的人并不是罗永浩,而是搜狗CEO王小川。就在今年7月,搜狗CEO王小川在参加极客公园“奇点创新者峰会”上已经完成进化的搜狗语音来了一次”首秀“。利用搜狗公司的语音识别技术,王小川的演讲内容在现场实时生成了滚动字幕显示,目测准确率高达95%以上。同步的字幕引起了现场观众极大的兴趣,纷纷起立拍照。不仅如此,王小川甚至还现场邀请了一位观众上台体验了搜狗输入法的新功能“语音修改”。用户对着手机说出一段文字后,再通过自然语言的方式将语音识别错误的地方进行修正,赢得了现场热烈的掌声。