基于社交网络分析算法(SNA)的反欺诈(二)

基于社交网络分析算法(SNA)的反欺诈(一) 

社交网络分析算法并不新鲜,且已经广泛应用于社交人物影响力计算、好友和商品推荐、社交圈子分析等领域。近几年,社交网络分析算法的应用不断拓展,已经开始应用于各种金融和保险等反欺诈领域,且效果很好。

为了讲解基于SNA的反欺诈,我先简单介绍下SNA的原理。为了方便理解,我会直接忽略很多细节(例如:入度和出度的概念),以下内容都是为了有助于理解反欺诈建模,想了解SNA更系统的知识请参看其他材料。

#基础知识#

节点(Vertice)和边(Edge)

社交网络,顾名思义,就是表现人和人之间关系的网络。类似的,社交网络分析算法,也就是为了研究节点(可以理解成人)和节点关系(边,可以理解成人和人之间的关系)的算法。通过对关系的研究,可以对节点关系做梳理,从而聚成团。

为了方便对下文指标的理解,我们定义节点数 N = |V|, 边数 M = |E|

图(Graph),有向图,无向图

用边把节点连接起来形成的网络,称为图(Graph)。图又可以分成无向图和有向图,如下图所示:

无向图仅表示节点和节点之间是否有关系,例如:在P2P行业反欺诈建模中,我们通过申请者通讯录去获取其社会关系,例如,如果张三和李四的通讯录都有老赖王五,那么,张三和李四的贷款申请违约风险就会比较高。

有向图相比于无向图会携带方向信息,一个最简单的例子就是传销图。传销有非常成熟的上下线制度,是发展团队十分迅速有效的手法,也被互联网公司广泛用于发展用户——好友邀请制度,此外,保险销售公司也有类似的提成机制。如被不法分子利用规则,对互联网公司,产生的后果就是大规模虚假注册;对保险销售公司,产生的后果就是内外勾结骗取额外提成。

社区(Community),非重叠社区,重叠社区

社区可以理解成UML中的群组,也就是同一个社区中节点和节点关系紧密,而社区和社区之间关系稀疏。

如果任意两个社区的节点集合的交集为空则被称为非重叠社区,否则称为重叠社区。

派系(Clique),完全子图

派系是指任意两个点都相连的节点的集合,又称为完全子图。

#分析指标#

指标一:度

简单来讲,度就是指从你这个节点发散出去了多少条边,或者可以理解成你有多少个朋友。

指标二:度中心性

我们在每个节点上都标注上其度的值大小,如下图所示:

我们接下来做标准化处理,用度除以最大连接可能(N-1),则得到:

形象地讲,中心性指越高,表示与你有联系的人越多,或者说,你的社交人物影响力就大。这是一个社交网站分析用户行为时一个常用的指标。

指标三:集中度(Centrality)

集中度表示一个群体的紧密程度,或者可以理解成密度。集中度又可以分为度集中度,紧密集中度和介数集中度,还有图集中度、特征向量集中度等,以下我们主要介绍前三种。

3.1 度集中度(Degree centrality)

度量集中度的方式有很多,例如,基尼系数、标准差和Freeman集中度公式。以下,我们以Freeman集中度通用公式为例计算:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值