深度学习的平台服务能力,不是找上一批人、搭上一个班子就能快速上马的,它需要的长时间的深厚积淀,如同飞机发动机的研发只能依靠技术沉淀而没有“捷径”一样,“财大气粗”短期投入突破的可能性并不大。
百度的深度学习历史可以追溯到2013年设立全球首个深度学习研究院,这比大多数AI企业切入AI领域还要早。
2016年PaddlePaddle正式开源,形成了目前国内唯一开源开放、功能完备的深度学习框架,之后的2017年,百度又在国家发改委批复下牵头筹建了国内唯一的深度学习技术及应用国家工程实验室。
其结果,是百度形成了难以被追赶的深度学习积累,不论是率先开源还是筹建实验室,在国内不存在对手。其他提供深度学习开发服务的AI企业,其发展阶段还远未到能够开源或被官方认可的程度。
2、唯一具备开发、训练、部署无死角系统化能力
深度学习框架这个“操作系统”也有自己的构成:开发、训练与部署的“三步走”标准姿势。
用大白话说,先针对要处理的数据构建一套合适的模型(可自己设置也可以利用深度学习平台提供的现成案例),把这个模型到平台上跑很多次教会它识别数据,最后将成型的“产品”装载到硬件或云端,最终一个AI应用被生产出来。
这三个环节缺一不可,模型建立不佳,大方向失误;训练能力不足,要么教出“差学生”,要么教出“坏学生”;部署时掉链子,好好的成型“产品”被搭载的平台拖累甚至难以执行。
深度学习框架是“取整函数”,任何一个环节缺失或能力不足就让“操作系统”的价值大打折扣。
上文百度PaddlePaddle所谓唯一“功能完备”的深度学习框架,其意义也在于此——“无死角”的系统化能力。
例如,在开发环节,PaddlePaddle已开源60多个经过真实业务场景验证的官方模型,涵盖视觉、NLP、推荐等AI核心技术领域。其中,新发布的视频识别工具包,能为开发者解决视频理解、视频编辑、视频生成等一系列任务,可实现一键式的高效配置来做训练和预测;
在训练环节,PaddlePaddle对原有大规模分布式训练(即多个芯片一起进行计算)进行了升级,一方面提升协同训练的效率,另一方面大幅度放松训练所需求的软件、硬件、带宽环境(可理解为各种学习条件下都能“好好学习”);
在部署环节,PaddlePaddle的软硬一体能力起到了重要作用,例如有针对多硬件支持的底层加速库和推理引擎Paddle Mobile和新发布的Paddle Serving。这可以理解为老师除了教会学生知识,还给予他们快速适应环境、实践上手的能力。