图机器学习(15)——链接预测在社交网络分析中的应用
0. 链接预测
如今,社交媒体已成为最具价值且丰富多元的信息源之一。每日涌现数十万条新连接、无数用户加入社群、数十亿贴文被分享。这些自发性且非结构化的交互活动,通过图结构得以数字化呈现,从而建立秩序化关联。
在社交图分析中,机器学习能有效解决诸多重要问题。通过合理配置,可从海量数据中提取关键洞察:优化营销策略、识别危险行为用户、预测用户阅读新帖的概率等。
其中,链路预测是该领域最具价值的研究方向之一。根据社交图中连接关系的不同含义,预测未来边可应用于好友推荐、电影推荐或商品购买预测等场景,该任务旨在评估节点间未来建立连接的可能性,可通过多种机器学习算法实现。
接下来,将介绍如何应用监督与无监督图嵌入算法,继续在 SNAP Facebook 社交图上预测潜在连接,并评估节点特征对预测任务的贡献度。
1. 数据处理
为执行链路预测任务,需对数据集进行预处理。该问题将作为监督学习任务处理:算法输入为节点对,目标值为二元标签——若节点在实际网络中相连则标记为"已连接",否则标记为"未连接"。
由于采用监督学习框架,需创建训练集与测试集。我们将生成两个节点数相同但边数不同的子图(通过移除部分边作为算法训练/测试的正样本):
import torch
订阅专栏 解锁全文
2952





