社交网络中的分类:挑战与解决方案
1. 引言
在大多数机器学习应用中,通常假设观察到的和未观察到的实例是从同一分布中独立抽取的。分类问题通过实例的特征(内容)和标签来解决,而实例之间的连接、依赖关系或关联往往不被考虑。然而,在我们的生活中,包含网络信息的学习问题变得越来越普遍,例如社交网络、语义网络、金融网络、通信网络和基因调控网络等。
在社交网络中,一个节点的类别归属可能会影响与其相关节点的类别归属。网络数据不仅包含每个节点的特征,还可能包含邻居节点的特征和标签,以及需要估计标签的节点的特征和链接。与普通数据的分类相比,社交网络中的分类面临着一些挑战:
- 设计能够充分利用社交网络数据中内容和链接信息的分类器是一项挑战。
- 数据划分为训练集和测试集也是需要考虑的问题,因为传统的随机抽样方法可能无法得到可靠的结果。
- 即使通过一系列链接连接的节点也可能相互影响类别,分类算法可能需要考虑这种依赖性。
为了解决这些挑战,我们将介绍随机和雪球抽样方法,用于将网络数据划分为训练集和测试集;展示如何通过不同的聚合机制使用邻居标签;讨论网络数据的分类方法,特别是集体分类算法;还会介绍一些重要的图属性,并给出三个不同数据集的实验结果。
2. 符号表示
假设存在一个由图 $G = (V, E)$ 表示的网络数据集,其中 $V$ 是节点(顶点)集合,$E \subseteq { {u, v} | u, v \in V}$ 是无向链接(边)集合。
每个节点 $u \in V$ 有一个 $C$ 维的标签向量 $r(u) \in {0, 1}^C$,采用 1 - of - K 表示法,用于