【大数据网络传播模型和算法-陈卫】——影响力最大化【持续更新】

原创

已于 2024-10-25 16:28:29 修改 · 2.1k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #贪心算法 #人工智能 #迁移学习 #图论 #深度学习 #数据分析

于 2024-10-15 22:18:48 首次发布

【大数据网络传播模型和算法-陈卫】——影响力最大化【持续更新】

本人当前研究方向为影响力最大化（基于机器学习的组合优化算法）。目前在学习陈卫编著的《大数据传播模型与算法》，该系列会定期分享影响力最大化的学习内容（持续更新…），希望大家能够一起交流学习！

前言

什么是影响？
什么是影响力？
什么是影响力最大化？
影响来自哪里？
影响如何传播？
在我们生活中有哪些直观应用？

1. 什么是影响？

小到听一首歌曲、看一部电影、读一本新书、选一个餐馆，大到买一处房产、选择职业方向、选择生活的城市、确定政治观点等，我们的各种选择和决定常常受到家人、同事、朋友以及更广泛的大众倾向的影响。举个简单的例子，我在一家餐厅吃饭，我觉得非常好吃并把该观点分享给我的朋友，这就是我对朋友观点的影响。

2. 什么是影响力？

在我们听一首歌曲、看一部电影、读一本书、选一个餐馆的时候，在我们买一处房产、选择职业方向、选择生活的城市、确定政治观点的时候，我们受到了谁的影响，哪些人的影响，哪些事物的影响？我们受到每一个人，每一个事物影响的程度都是影响力。

3. 什么是影响力最大化？

影响力最大化（IM）是一种经典的组合优化问题，旨在选择少数用户，从而最大限度地扩大在线社交影响力。

4. 影响来自哪里？

企业在做新产品推广时，可以利用对用户影响力及其传播的了解，选择有影响力的用户和传播渠道，从而帮助产品推广；公益机构可以通过影响力传播推动公益事业的发展，比如增强全民健康意识，推动扶助贫困地区等；政府可以选择合适的影响力群体和渠道来扩大其政策的影响或抵御谣言的传播。

5. 影响如何传播？

Christakis 和 Fowler 利用美国一个城市上万人 32 年的医疗记录数据验证了肥胖症和吸烟行为会在社交网络中相互影响和传播。
在抖音，哔哩哔哩，小红书，微博等APP上分享作品或者发布作品都会产生影响，而观看这些作品的人会受到影响。

6. 在我们生活中有哪些直观应用？

影响力最大化研究可以应用于病毒营销、网络监控、谣言屏蔽、社交推荐等领域。深入认识影响力的产生和传播模式有助于理解人类群体和个体的行为，从而使我们能够预测人们的行为，为政府、机构、企业等部门的决策提供可靠的依据和建议。比如企业在做新产品推广时，可以利用对用户影响力及其传播的了解，选择有影响力的用户和传播渠道，从而帮助产品推广；公益机构可以通过影响力传播推动公益事业的发展，比如增强全民健康意识，推动扶助贫困地区等；政府可以选择合适的影响力群体和渠道来扩大其政策的影响或抵御谣言的传播。

第一章网络传播模型概述和分类

网络传播模型的种类繁多，侧重点各不同。本章节介绍了随机传播模型的基础定义，并基于这个定义对常用的传播模型进行了分类。

1. 基本概念

实体：代表网络传播中的对象，如用户、粉丝等更具体的对象；
有向图 $G = (V, E)$ ：代表一个社交网络，其中 $V$ 代表结点， $E$ 代表有向边；
有向边 $(u,\nu)\in E$ ：代表 $u$ 和 $v$ 有某种社交关系，方向代表实体在这个关系上的传播方向；那么 $u$ 是 $v$ 的入邻居， $v$ 是 $u$ 的出邻居；
$N^+(\nu)$ ：节点 $v$ 的出邻居集合， $N^+(\nu)$ 大小为出度；
$N^-(\nu)$ ：节点 $v$ 的入邻居集合， $N^-(\nu)$ 大小为入度；
举例：
微博中明星和粉丝的关系，对于粉丝来说，粉丝们关注了明星，所以她们可以收到明星发布的动态；对于明星来说来说，他如果没有回关粉丝，他就不会收到粉丝的动态，这就是一种单向的传播。这种情况就可以建立有向图来反映社交网络传播关系。
还是刚刚的例子，如果明星关注了他的粉丝们，那么他就可以收到粉丝的动态；再举个例子，微信好友默认就是一种双向的关系，这种图我们就可以使用无向图来表示，具体情况具体分析，根据实际问题的需求来建立相应的图结构。

2. 网络传播模型及分类

网络传播虽然多种多样，但实质上都可看成结点上与传播实体有关的状态依据网络的连通结构而发生有规律的改变。

定义 1.1 （随机传播模型）
一个随机传播模型由下列元素给出完整刻画：
（a）图结构 $G = (V, E)$ ；
（b）每个结点的状态空间 $\Sigma$ ；
（c）传播概率空间 $\Omega$ ；
（d）传播事件的时间序列 $(t_1,v_1),(t_2,v_2),\cdots,(t_i,v_i),\cdots$ , 其中 $0{<}t_1\leqslant t_2\leqslant\cdots\leqslant t_i\leqslant\cdots$ ,该序列可能是个确定性序列，也可能是个随机序列，且随机性由随机元 $\operatorname{:}\omega\in\Omega$ 确定，并与结点状态有关，如果是后者，模型要给出序列的产生方法；
（e）每个结点的传播函数:
$F_\nu{:}\sum^{\mathcal{N}^-(\nu)\cup\{v\}}\times\Omega\to\Sigma$
对于任何一个在 0 时刻给定的各结点初始状态:
$\{X_{\nu,0}\in\sum|\nu\in V\}$