一方面,不断的功能增加使得产品能够适应许多输入场景。除了传统的手写和键盘输入外,三大输入法还加入了OCR扫描、智能预测/纠错等功能。其中,OCR扫描指的是用户可以通过扫描将图片或手写稿转换成文字,而智能预测功能则可以提前根据输入拼音预测用户想打的字,智能纠错则可以根据词库、语境快速纠正用户的错误。
各种功能的丰富,使得输入法可以服务于用户的全输入过程,在输入前、中、后每个环节提供对应的服务。
另一方面,产品能力的极限突破为用户带来了全面的体验。以从语音起家的讯飞输入法为例,目前讯飞输入法已经做到了一分钟400字的输入速度,以及语音识别准确率达98%的水平,也就是说整段输入的出错率非常小,为用户带来的是极速和流畅的综合输入体验。
可以说,这些功能所达到的极限颠覆了以往低效低质的输入体验,从感官上弥补了用户对输入法的体验缺乏。
黑科技成就输入法
无论是功能上的全能,还是体验上的全能,输入法产品能够实现质变,甚至能够适应一些极限和极端的输入场景,除了产品本身的创新外,不断的技术迭代是最核心的原因。用户之所以能够只花一半的时间完成整个输入过程,都依赖于输入法们背后的黑科技。
讯飞输入法可以说是“科技成就输入法”的最佳代言人。一方面,其背靠有20多年智能语音技术沉淀的科大讯飞,已有20万小时训练数据积累;另一方面,科大讯飞有太多的国际赛事顶尖荣誉,比如在2018年由国际计算语言学协会(ACL)下属组织主办的第十二届国际语义评测比赛(SemEval2018)中,科大讯飞斩获了基于常识的机器阅读理解全球第一;2018年的国际权威英文语音识别大赛“CHiME-6”中,科大讯飞包揽了两项第一名;2019年在ICDAR2019举办的场景文本视觉问答挑战赛ST-VQA中,科大讯飞包揽了三项冠军;2020年初在德国The 20BN-Jester Dataset手势识别评测中,科大讯飞以97.26%的准确率斩获冠军,且刷新了世界纪录……讯飞输入法背后的黑科技可以从四方面来看。
一、语音输入
语音输入讲究快速和准确,讯飞输入法之所以能达到一分钟400字、识别准确率98%的水平,主要在于其自研的“记忆增强的多通道全端到端语音识别框架”,这项技术简单来说就是能够完全将前端语音处理过程深度学习化,并使用深度卷积神经网络和后端识别模型进行混合训练,从而大大提高了语音识别的效率。
至于能够使用23种方言进行精准语音输入,一方面要靠通过多方言共享方式训练的Multi-lingual多语言建模技术,另一方面要靠GlobalPhone全球音素集,这项技术从声学层面的相似性来统一各方言的音素定义,使方言“语图谱”模型进一步精进,从而使得方言识别效果有效提升。多语种互译功能则对技术提出了更大的挑战性,以中英互译为例,讯飞输入法基于对抗样本训练方法提出了融合副语言特征的“高鲁棒性语音翻译技术”,并在模型中结合特定技术,有效提高了最终翻译结果。