语音交互技术上的高山一:自然连续对话
随着软硬件的快速迭代,如今的ASR(语音识别)技术已近成熟,未来智能语音交互的核心竞争力在于在复杂场景下准确理解用户的意图,并为其提供差异化服务。更加智能的自然连续对话能力,将让语音交互系统更具人类的亲和力特质和逻辑思维能力,能带给用户更具情景化、更有温度的用车体验和服务潜力。
“智能相对论”认为,自然连续对话是一个系统的工程,涉及到从车机端的声学前端处理、语音唤醒、语音识别、语义理解、对话管理、自然语言生成、语音合成等核心交互技术。斑马智行VENUS的AI语音得益于阿里达摩院的重磅加持以及科大讯飞、思必驰等合作伙伴的大力支持,极大提升了语音能力。斑马基于AliOS系统,可以更好地将语音核心技术能力与系统能力相结合,更大程度地发挥出语音核心技术的优势,将多种引擎的协作发挥到极致,达到“1+1>2”的效果。
语音交互技术上的高山二:个性化,即声音克隆
如果说自然连续对话为更自由的交互和差异化服务提供可能,那语音定制化则将个性化、情感化的语音交互率先落地。
2017年9月,一家名为Lyrebird的加拿大初创公司在推特上发布了一段10秒的录音。录音是内容AI模仿美国总统特朗普的话语。在此之前,Google旗下的DeepMind曾经公布了一个用AI合成人声的研究成果:WaveNet,达到以假乱真的地步。Adobe也发布过一款名为Project VoCo的原型软件,在倾听20分钟音频样本之后可以进行模仿。而Lyrebird将音频采样的输入时间缩短到了60秒。
如今,国内智能网联行业也首次迎来了语音定制——“声音克隆”产品。斑马智行VENUS系统“声音克隆”操作流程非常简单。用户只需在斑马智行APP录制20句话即可合成私人语音包,一键发送至车机便可全局使用,无论是导航引导、天气查询,还是预订餐厅,和你对话的都是你最想听的声音。
声音是车载AI语音交互功能的“灵魂”,基于“声音克隆”技术,斑马智行VENUS系统将为用户提供“千人千声”的定制化服务,用户可以“克隆”亲人和爱人的声音,让陪伴更长久,让驾驶更舒心。
据介绍,斑马智行VENUS系统“声音克隆”操作流程非常简单。用户只需在斑马智行APP录制20句话即可合成私人语音包,一键发送至车机便可全局使用,无论是导航引导、天气查询,还是预订餐厅,和你对话的都是你最想听的声音。斑马网络AI语音相关负责人表示,斑马智行VENUS系统能在录制“倾听”中“掌握”每个人说话时的字母、音位、单词和语句的发音特点,通过深度学习技术推理并模仿声音中的语音音色、语调,“说”出全新的语句。
攀登技术高山,如何让机器交互能够更接近真人交互依然在等待更好答案
语音是人类最舒适,最直观的交流方式之一。如今的智能语音交互产品,变得越来越像人一样聪明且富有感情。它可以准确理解信息输入、高效处理并提供理想的信息输出。“智能相对论”认为,在人工智能和5G迅速发展的背景下,语音平台有机会成为物联网时代下新的“操作系统”,连接全新的产业生态,包括各类服务、应用、硬件等。
在各类应用场景中,除了智能家居,汽车产品对于语音交互的需求显而易见。不论是点击、滑动等触摸交互方式,在车载环境下都存在安全隐患且并不高效,语音交互是天然适应车载环境的交互方式。不过想要设计、开发、应用一套成熟的车载语音交互系统,要翻越重重高峰:行车噪音干扰如何处理、方言口音如何适配、自然的表达如何更好支持、系统的误触发如何控制在可用范围。
而随着用户对汽车智能化要求的越来越高,更自然的交互成为语音交互的发展方向。如何让机器交互能够更接近真人交互?多模态融合理解、自然全双工对话、自然语义理解成为了新的需要攀登的高峰。
斑马智行的系统底层——AliOS,在传统触控、按键交互模式的基础上,将语音交互能力、视觉交互能力以及场景信息在系统层进行融合互通,更大程度得发挥了各个交互能力的优势,使得多模态融合理解、融合交互以及更自然的全双工对话、拥有更多信号输入的自然语义理解成为可能。同时在各种交互能力融合后对上层应用进行开放,使得最终呈现给用户的交互更自然。
语音交互带来的产业机遇方兴未艾。如果说,未来的主流交互方式存在多样的可能性,那更高率、更自然、更接近于人本能的方向一定是人机交互的未来。
此内容为[智能相对论]原创,
仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。
部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。
智能相对论(微信ID:aixdlun):
•AI产业新媒体;
•今日头条青云计划获奖者TOP10;
•澎湃新闻科技榜单月度top5;
•文章长期“霸占”钛媒体热门文章排行榜TOP10;
•著有《人工智能 十万个为什么》
•[重点关注领域]智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。