
复杂网络
文章平均质量分 79
a_step_further
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
在Spark上基于Minhash计算jaccard相似度
问题引入在风控领域常会面临一种场景:随着安全策略的打击,部分已经显露的账号/用户会被稽核、处置,要么被动地被封停,要么被坏人干脆舍弃掉。坏人会重新注册新的账号进行活跃。而这些新老账号之间很可能没有直接的交易关系,甚至连登陆设备也不同,就较难发现其关联性。但有一点是较难隐藏的:上下游的关系链。因此,可以尝试通过关系网络结构上的相似性来量化两个账号之间的关联度,从而对于风险用户关联分析起到一个补充作用。可用下图来辅助说明,x的交易流入方集合为{a,b,c,d}, y的交易流入方集合为{b,c,d},一个原创 2020-07-28 19:36:39 · 1981 阅读 · 0 评论 -
图上的机器学习系列-聊聊SDNE
前言本篇继续我们的Graph Embedding之旅途。今天要聊的是SDNE(Structural Deep Network Embedding)。结合的论文为《Structural Deep Network Embedding》,这是2016年发表的一篇论文,与node2vec在同一年问世。总体上来,SDNE更像LINE,而不像Deepwalk。有了LINE的基础后,理解这篇文章会较快。...原创 2020-04-16 10:10:09 · 908 阅读 · 0 评论 -
图上的机器学习系列-聊聊LINE
前言本篇继续GraphEmbedding旅途,来聊聊LINE这个方法,对应的paper为《LINE: Large-scale Information Network Embedding》。---广告时间,欢迎关注本人公众号:LINE的核心方法首先,还是先来脑补一下LINE方法的思考过程:相似度&距离在上一篇中,我们已经知道DeepWalk是采用类似于Word2Vec的...原创 2020-04-07 21:05:02 · 914 阅读 · 0 评论 -
图上的机器学习系列-聊聊Node2vec
前言继DeepWalk后,我们再来看一种基于随机游走策略的图嵌入方法——Node2Vec,有点像前者的升级版本,有了前者的基础,理解起来会快很多。--广告时间,欢迎关注本人公众号:核心方法Node2Vec与DeepWalk最大的不同(甚至是唯一的不同)就是在于节点序列的生成机制。DeepWalk在每一步探索下一个节点时,是在其邻居节点中进行随机选择,然后基于深度优先策略生成一个固定...原创 2020-04-07 20:40:04 · 860 阅读 · 0 评论 -
图上的机器学习系列-聊聊DeepWalk
前言本篇着重结合论文《DeepWalk: Online Learning of Social Representations》来聊,过程中尽量把一些概念和方法展开多讨论一下。DeepWalk是干啥的我们来想这样一件事:机器学习是咋工作的?需要输入一堆特征变量对吧?无论是离散型还是连续型,但都是欧式空间中的数学表达,总归是可以用很多数学工具来分析的。但一个社交网络的图结构呢?每一个点该...原创 2020-04-05 00:30:03 · 706 阅读 · 1 评论 -
图上的机器学习-第0篇-问题描述与学习建议
从本篇开始,我们将一起开启图上的机器学习篇章。我们这里所说的“图”,是指图论这个领域的概念,而非图像。为什么要开启本系列随着当前GNN(图神经网络)在学术圈、工业界的同时爆发,未来3年左右,图上(或称复杂网络、关系数据)的机器学习、深度学习一定会呈现高度繁荣的局面,笔者建议对图论、图计算、机器学习这些领域感兴趣的朋友一定要密切关注该交叉领域的技术创新及应用发展。现实中越来越多的数据...原创 2020-03-30 16:53:27 · 358 阅读 · 0 评论 -
复杂网络节点重要性评价方法的对比-基于igraph C library
前言 在此之前,笔者写过一篇关于复杂网络中节点重要性评估方法的文章(http://blog.youkuaiyun.com/a_step_further/article/details/51176964),当时用spark实现过比较简单的方法。近期在业务应用中,又遇到需要对业务问题中不同用户的影响力进行分级的需求,那么重新捡起来复习下。这次使用igraph C library来做,因为原创 2016-04-18 08:24:49 · 10866 阅读 · 0 评论 -
复杂网络节点重要性评价方法初探
在一个网络中,不同的节点起着大小不同的作用。以社交网络为例,有意见领袖的大V,有死寂沉沉的僵尸粉;以交通网络为例,有至关重要的交通枢纽,有无关痛痒的备用中转站。在使用复杂网络分析业务问题时,如何区分网络中不同节点的重要性程度,就是一个需要考虑的问题。为了解决我们自己的业务问题,顺便了解了一下相关的方法,特记录一下,若有益于相关领域的同学,则幸甚。 一、要实现的目标 对网原创 2016-04-18 08:13:28 · 23475 阅读 · 5 评论 -
复杂网络社区结构发现算法-基于igraph C library
在社交网络数据分析领域,igraph算法包提供了多种应用接口,且支持C、python、R三种语言,通常大家使用python 或 R 的机会更多些。近期出于业务需要,希望提高关系数据计算的效率,我们探索了一下C library的使用方法,以随机游走这个社区挖掘算法为例,进行了尝试,特记录一下,希望能对相关领域的同事有所借鉴。 重点备注 1. 建网络,可以直接调用 igraph_re原创 2016-04-18 08:19:35 · 8355 阅读 · 1 评论 -
复杂网络社区结构发现算法-基于python networkx clique渗透算法
前言 最近因为业务数据分析的需要,看社区发现相关的东东稍多些,刚刚写过一篇基于igraph C library的方法(http://km.oa.com/group/22323/articles/show/240332),然后想用kclique衍生的clique渗透算法时发现igraph C library 并未提供现成的api,对于懒人来说,这很不幸。既而发现networkx这个原创 2016-04-18 08:21:03 · 26665 阅读 · 18 评论 -
复杂网络社区结构发现算法-基于igraph 标签传播算法
【前言】 继续我们本系列对复杂网络社区结构的方法探索,之前已经尝试过spark上标签传播算法、igraph 中随机游走算法、networkx中的clique渗透算法(见笔者相关文章),但一直局限于无向、无权重图的分析。本次,向前迈一步,引入权重。选用了igraph中的标签传播算法。【方法讨论】 相比于spark上的标签传播算法,发现igraph中的接口增原创 2016-04-18 08:22:55 · 9831 阅读 · 2 评论 -
使用C++ Boost Graph Library 进行社交网络分析入门篇
前言: 社交网络分析是一个常常会遇到的业务问题,故而笔者也一致在不断尝试不同的社交网络分析工具。之前使用过python networkx, igraph C library, 今日再介绍一款C++环境下的分析工具: Boost Graph Library(下文简称BGL), 该库据说可轻松处理百万级别节点规模的网络. 业界对该款工具的评语有:1. large, stabl原创 2016-05-30 11:19:40 · 3862 阅读 · 0 评论