P2P借贷分析:基于最相关图特征的特征选择方法
1. 初步概念
1.1 稳态随机游走的概率分布
假设 $G(V, E)$ 是一个图,其中顶点集为 $V$,边集为 $E$,权重函数为 $\omega : V × V →R^+$。若 $\omega(u, v) > 0$(且 $\omega(u, v) = \omega(v, u)$),则称 $(u, v)$ 是 $G$ 的一条边,即顶点 $u \in V$ 和 $v \in V$ 相邻。图 $G$ 的顶点度矩阵 $D$ 是一个对角矩阵,其元素为:
$D(v, v) = d(v) = \sum_{u\in V} \omega(v, u)$
基于相关理论,稳态随机游走访问每个顶点 $v$ 的概率为:
$p(v) = \frac{d(v)}{\sum_{u\in V} d(u)}$
从概率分布 $P = {p(1), \ldots, p(v), \ldots, p(|V|)}$ 出发,可以直接计算图 $G$ 的香农熵:
$H_S(G) = - \sum_{v\in V} p(v) \log p(v)$
1.2 詹森 - 香农散度
在信息论中,詹森 - 香农散度(JSD)是衡量潜在结构化数据(如树、图等)上概率分布之间差异的一种度量,它与两个分布的香农熵有关。考虑两个(离散)概率分布 $P = (p_1, \ldots, p_m, \ldots, p_M)$ 和 $Q = (q_1, \ldots, q_m, \ldots, q_M)$,则 $P$ 和 $Q$ 之间的经典詹森 - 香农散度定义为:
$D_{JS}(P, Q) =
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



