- 安全画像系统介绍
为帮助58各业务方构建智慧型安全防控网络,我们自主研发了基于大数据的安全画像系统,该系统是一个分析型安全防控管理平台,可基于猎人平台(58信息安全部开发的实时风控安全平台)实现统一的信息安全风控管理,帮助业务方实现事前的情报预警,事中的风险识别,事后的案件追溯,并与第三方数据有效集成,最终帮助业务线实现精准风险打击和智慧运营的效果。
- 演化过程
安全画像系统从去年初第一个版本的开发开始,到现在将近两年的时间里,经过了无数次的需求迭代和几次大的架构演化,从最初的只有几个服务接口和一堆脚本的查询工具逐步演化成现如今的一个系统化平台,目前平台拥有完整数据闭环,多元化的综合服务能力。系统沉淀了20亿+的数据,共10个维度,200多种标签,承载着每日超过20亿次的调用量。
- 最初的安全画像
安全画像在设计的初衷只是为了给各个业务线提供一系列基于业务安全的,涉及账号、IP、手机号等多个维度的标签数据集,将在58平台上出现过的黑产、或有恶意行为的资源进行标识,从而大幅度提高黑产的攻击成本,有效的降低58平台中出现的各种违规和恶意行为。
画像标签应用到风控对抗的策略中,最核心的价值就是数据,所以如何不断提高数据的覆盖率和准确率是关键,而如何从海量的日志中提取特征数据并分析出有效对抗黑产行为的策略是解决这些关键问题的前提,下图就是安全画像服务最初的结构。
我们通过对外采购数据和基于58平台的流量日志进行特征的抽取和分析,并通过执行SQL和其它脚本,将输出的风险数据写入标签库。
同时我们需要开发一个高性能的服务接口来对外提供实时查询能力。如果想提供高性能的查询服务,首先要选择一个可以支持高并发、低延时的数据库作为存储,标签数据的格式是非常松散的,各个维度的标签结构都不相同,同时考虑到标签的总数据量可能会在几T甚至几十T的级别,高峰期每秒钟的访问量可能会到达几万到几十万,我们采用了文档型数据库mongodb,它可以提供大块的内存来缓存热点数据,满足高并发查询的要求,并且它成熟的数据持久能力也可以保证我们海量的标签数据不会丢失。我们采用分片路由模式进行部署,总共做了5个分片集群,每个分片都是一个由5个副本组成的副本集。保证了超过1T数据量的数据存储、10w+的QPS并发能力,1ms以内的平均访问延时,满足了最初的查询要求。
- 第一次演化,完成平台化建设
为了满足早期系统快速出策略,快速验证的要求,很多策略的执行脚本都是快速部署到服务器上,并简单通过操作系统的定时任务去调度,随着标签和维度的不断扩充、标签存量也不断增长,几