召回模型具备处理数据量大、模型够快的特点。因而,这也限定了它不能用太多的特征和太复杂的模型。
▐ 2. 召回模型的三大技术类型
基础个性化召回->深度学习召回->多目标融合召回
2.1. 基础个性化召回
最常用的召回当属item-based CF,这类算法根据item的共现关系计算i2i相似性,非常适合根据用户实时trigger(点击、收藏、加购、购买等行为)进行召回。传统模型还有如swing、userCF等,这类传统模式都是,根据用户产出的数据进行启发式的召回。
2.2. 深度个性化召回
将user、item、video等候选集转化为向量,通过向量检索技术召回Top-k,把原来的“精确匹配”为“模糊查找”,提升召回的宽度,这就是向量化召回。这段就不展开了,其实可以更细化的去分析,毕竟很多在靠说“向量召回”培训的,这里挖个坑,后面开一篇文章专门细说召回。深度算法召回还有基于用户行为序列、基于多兴趣拆分的、基于graph embedding和和基于知识图谱融合的。2.2. 多目标融合召回
在以优化点击率目标的基础上,尝试优化关注加购收藏率、成交率等其他目标。以及将积累的各种召回模型,根据业务实际需求实行多策略召回。在手淘猜你喜欢或者搜索结果页面里有产品页面、短视频、买家秀、直播间等。还有平台的业务,比如各种聚合主题,平台的子频道,栏目。▐ 3. 粗排
召回数量的还是千到万级别的候选集,为了后面的精排环节的性能,在中间加了一个粗排。粗排根据用户和内容的一些相关特征,对召回环节的候选集进行粗略排序,在保证一定的相关性的前提下,再一次减少往后送候选集的数量。
▐ 4. 精排
精排阶段则结合着用户行为特征、商品特征、场景上下文等特征,对产品的点击率 (CTR)、转化率 (CVR) 等排序指标进行建模。然后,系统会按照一定的商业目标 ( 例如 GMV) 综合所有的排序指标并计算出最终的排序分。
▐ 5. 召回和排序哪个更重要?
5.1. 排序在系统中的重要性
在排序环节,特别是精排,处于整个推荐算法链条的最后一环,方便直接对业务指标发力,加之候选集较小,可以使用复杂模型,使用任何能想到的特征参数。我们日常店铺的几乎都是围绕精排环节使用到的特征参数做运营,这个也是能直接“操作”的技术细节。比如我们提高首图点击率、产品销量的权重。都是最直接地影响到精排模型,使得我们获取到一个靠前的排序,从而获取到平台的流量。店铺技术运管成功与否,看我们能不能“影响”排序算法,实现运营目标。这里的影响,打了个引号,可以通过付费推广氪金的方式,引导系统拿到推荐流量、也有通过补单的博取销量,这就属于对抗系统,欺骗算法。5.1. 召回注重策略导向
召回环节客观的来讲,技术含量不是太高,而是注重策略导向。而且召回处于整个推荐链路的前端,其结果经过粗排、精排、重排的筛选,最终作用于业务指标时,影响力已经大大减弱了,但是召回决定了排序效果的上限。所以召回对我们店铺运营的指导更多的是很高一个高度的策略指导,而且这个算法环节的可解释性很高,可以用逻辑解释得很清楚。这种大方向性的策略,淘宝官方又通通给我们很明确的指导,所以紧跟平台运营的脚步,你就胜过90%的人,前提是能跟得上。比如淘宝小二会让商家去重点关注短视频,去引导买家做买家秀,从而生产更多的内容,这不单单是我们商家的运营,也是平台小二的运营手段。推荐算法无数不在,遍布每一个业务的角落,上面提到的短视频,其实也得要单独的推荐算法去分析推荐。所以想要获取到视频的流量,就要增加短视频内容。▐ 总结
排序算法是运营技术细节,而召回更多的是偏向平台策略,但是很难落地到商家的运营策略里。推荐算法也好,搜索算法也好,不同层次的商家,运营的方式肯定都不会一样。小商家偏向于一招鲜,更加灵活注重的是盈利,而腰部头部商家更加注重长效运营。好些时间没码字了,一篇文章选了一个很大的题目,潦草一篇文章无法讲透彻,而且大部分的同学都比较关注技术的细节,关注算法这种看不到摸不着的东西,不感冒!比如打标、卡链接、降PPC等。后面会直接拿更直观的东西出来给大家分享,如果你也喜欢研究技术运营,欢迎一起交流。