而大规模图挖掘则是通过跳出行为“局部性”的方法考虑行为的“全局性”来深挖“精刷”类型的作弊手段。比如概率图模型对用户行为路径进行时间序列建模(假设正常用户的行为轨迹的时间序列是服从某种概率分布,异常的行为轨迹在某些点上服从其他概率分布),对那种机器刷单或者固定模式刷单能非常有效地识别;图标签传播模型可以来做团伙刷单的识别,对炒信平台隐蔽性高组织性强的“精刷”模式的识别非常高效准确。为了进一步验证算法模型的精准性,反作弊体系也增加了实时干预模块来做交叉验证和分析,主要包括专家知识、人工举报、异常监控和人工评测,这些外部数据源加工处理后可以作为验证数据动态帮助模型进一步优化。
大规模图搜索技术在反作弊中的应用主要体现在下面四类核心算法:
标签图模型:在大规模属性图结构上做社区和团伙挖掘;和以往的分类等机器学习算法不同的是,在属性图上有效地利用标签传播算法分析用户的行为可以挖掘出很多其他算法识别不到的同机团伙和协同炒作团伙;
概率图模型:在大规模图结构上挖掘变量之间的关系;利用概率图模型可以有效分析用户信息的风险程度(比如预防用户地址泄密)和用户购物行为链路之间的关联(比如识别账号异常行为)
数据流图模型:在大规模数据流上挖掘频繁子图,利用数据流挖掘我们在资金流网络中首次发现了由“僵尸账号”通过炒信行为产生的“坍缩网络”,同时构建了一套“转账首活网络”能有效识别这些炒信用户,准确率达到了99.9%;
大规模图链接模型:在大规模图数据基础上做排序和权重挖掘,通过这种图链接方法我们有效地发现了重复运单和虚假运单的行为;我们的图算法能并行处理1亿以上节点5亿条边的图数据。在 3千万个节点,2.2亿条边的图数据上调用图链接算法时间仅需要14分钟。同时整个算法框架也包含了实时计算模块,使得对时效性要求高的业务场景下(比如双11)部分算法识别可以实现0秒延迟并可以每15分钟动态调整并跟新所有其他的模型。
三、大数据全链路反作弊示例
淘宝反作弊最核心的部分就是搭建了一个将“账号网、交易网、资金网、物流网”四网合一的全链路大数据的天罗地网,做到全方位无死角的监控和识别任一种作弊行为
账号网:主要是从各种注册信息或登陆信息中来全方位真实了解账号的真实性和平台特性,通过挖掘用户行为的变化情况来有效发现账号行为的异常性(见图3);
图2、大数据全链路反作弊识别账号网
交易网:主要通过挖掘用户具体的购买行为路径来跟踪是否有异常,这涉及到“售前”(搜索词,点击浏览,详情页等)“售中”(收藏夹,购物车,支付等)“售后”(物流,评论,退货等)(见图3);
图3、大数据全链路反作弊识别交易网
资金网:主要是通过挖掘资金流的行为来识别一些异常交易或者洗钱,盗号,套现等高危行为(见图4);
图4、大数据全链路反作弊识别资金网
物流网:主要是通过挖掘交易和物流环节的关联性来识别一些虚假运单和空包等作弊行为(见图5).
四、总结
淘宝反作弊体系已经建立并完善了一套完整的包括“账号网”、“交易网”、“资金网”、“物流网”的大数据分析体系,和覆盖“售前”、“售中”和“售后”的电商全链路的在线学习(Online Learning)和大规模图挖掘(Graph Mining)算法识别系统。同时还建立了完整的“平台化”风险管控系统-“虫洞”,通过系统监控预警以及在线分析的方式将模型算法和人工运营有效结合起来,不仅能高效识别作弊行为并进行了有效地干预,同时还可以有效控制各种风险。经过日常和大促的洗礼,淘宝反作弊算法体系无论在准确率、覆盖率、反弹率上都能经受任何形式的考验。