[绝密]淘宝内部反作弊算法流出不看后悔

一、淘宝反作弊体系结构

淘宝反作弊体系结构可以从数据、算法、和系统三个维度来解释

数据：主要是将识别的作弊数据汇总到买家、宝贝、订单和卖家四个维度并全量提供给了数据平台供各业务方使用，即可用作算法训练样本的特征，也方便系统查询和监控作弊数据的趋势变化情况；

算法：覆盖了包括账号网、交易网、资金网和物流网四网合一的大数据，彻底打通了售前、售中、售后全链路业务，可以多方位识别各种作弊行为；

系统：主要是建立在数据层基础之上的一套包含监控预警、在线分析和风险运营系统，能快速高效地窥视刷单行踪并及时阻断其获利点；

二、淘宝反作弊算法

淘宝反作弊算法体系是伴随着淘宝平台而不断优化和完善的，早期作弊的形式非常简单，比如频繁修改商品上下架时间来获取有利的商品排名，这种作弊手段往往经过简单的分析处理就可以制定相关的规则来处理，随着平台业务场景的多元化，作弊手段也随着变化多样，但大部分集中在商品基础信息层面上的作弊，比如类目错放、标题词滥用、夸大宣传、低价炒信、广告商品、重复铺货、刷流量和查询词等等，或者机器刷单模式。

道高一尺魔高一丈，无论刷单手法多么诡计多端，淘宝反作弊算法体系都能快速响应。其中最重要的就是实现了一套覆盖全链路（售前、售中、售后）大数据（账号网、交易网、资金网、物流网）的实时分析处理能力，因此任何一条隐蔽性强的“精刷”作弊路径都可以被海量大数据从多个点来进行算法建模和交叉分析，从而能快速地识别并控制住风险。淘宝反作弊算法框架大致见下图1。

[绝密]淘宝内部反作弊算法流出不看后悔

图1、淘宝反作弊算法框架

首先整个反作弊算法框架融合了“账号网、交易网、资金网、物流网”四网大数据，并覆盖了电商“购物前-购物中-购物后”多个业务环节，算法模型是一种流式计算框架，数据日志经过实时和离线两大计算模块后会加工成一些交易属性特征作为识别算法的基础，其中实时计算主要是对一些异常的在线数据（比如商品销量异常或者卖家信誉增长异常）进行快速分析并转化为相应的特征，而离线计算是对全链路数据的特征加工和处理，结合在线和离线的计算可以将行为变化的长期和短期因素的影响在模型计算中综合考虑，从而进一步提高识别的时效性和精度。

淘宝反作弊算法框架主要覆盖了阿里电商两大场景：日常反作弊和大促反作弊。算法主要是以大规模图挖掘（Graph Mining）和在线学习（online learning）为核心，在线学习可以对一些规则性的算法做到实时更新模型用来防范“试探性”地作弊手段，主要是基于规则的的模型（决策树和LR逻辑回归模型），根据一些交易特征建立强规则来进行识别计算，对那种明显的商品作弊模式的识别非常高效。