【图分析】逼近（Approximation）

原创已于 2022-08-11 11:42:09 修改 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #知识图谱 #机器学习

于 2021-09-07 16:53:08 首次发布

图专栏收录该内容

5 篇文章

订阅专栏

本文深入探讨了图论中的核心概念，包括图的连通性（K-Components）、最大分团（Clique）、支配集（Dominating Set）以及著名的旅行商问题（Travelling Salesman Problem）。同时介绍了群聚系数、树宽、匹配等重要指标，展示了图在网络分析、社交网络和优化问题中的广泛应用。

Connectivity

计算图 $G$ 的连通性，或者是 $G$ 中点与点之间的连通性。

K-Components

K - 连通分量，计算图 $G$ 中存在的1-连通分量，2-连通分量，…，k-连通分量。

{"1": [["p6", "p7", "p5", "p2", "p4", "p3", "p1"]], "2": [["p6", "p7", "p5"], ["p3", "p2", "p1", "p4"]]}

Clique,apx-maximum independent set

独立集，图 $G$ 中任意两个顶点都不相连的顶点集合，例如二分图：
在这里插入图片描述
{1，2，3}、{4，5，6}等等，而{1，2}也是独立集，但不是最大的独立集。

Clique,max clique

最大分团指的是图 $G = (V, E)$ ，的最大子集 $C$ ，这个子集中的每个节点都是两两相连的（完全图）。

Clustering,clustering_coefficient

群聚系数用来描述图中的顶点之间集结成团的程度的系数。也就是一个点的相邻点之间相互连接的程度。

global clustering coefficient（全局集聚系数）
假设有图 $G = (V, E)$ ， $L (i)$ 表示与节点 $v_i$ 相连的边的集合： $L(i)=\{v_j:e_{ij}\in E\cap e_{ji}\in E \}$ ， $L (i)$ 里边的数量就是节点 $v_i$ 的度，记作 $k_i:k_i=|L(i)|$
如果用 $C_{total}(G)$ 表示全局集聚系数， $G_\Delta$ 表示闭三元组的个数， $G_\wedge$ 表示开三元组的个数（一个三元组是其中有两条（开三元组）或三条（闭三元组）无向边连接的三个结点）。全局集聚系数是所有三元组（包括开和闭的）中封闭三元组数目的比例：
$C_{total}(G)=\frac{3*G_\Delta}{3*G_\Delta+2*G_\wedge}$

local clustering coefficient（局部集聚系数）
图中一个节点的局部集聚系数表示它的相邻节点形成一个团（完全图）的紧密程度。结点 $v_i$ 的局部集聚系数 $C_i$ 是它的相邻结点之间的连接数与它们所有可能存在连接的数量的比值。有向图的局部集聚系数为
$C_i=\frac{|\{e_{jk}\}|}{k_i(k_i-1)},v_j,v_k\in N_i,e_{jk}\in E$
其中， $N_i$ 是节点 $v_i$ 的相邻节点。无向图的局部集聚系数为
$C_i=\frac{2|\{e_{jk}\}|}{k_i(k_i-1)},v_j,v_k\in N_i,e_{jk}\in E$
average clustering coefficient（平均集聚系数）
定义为所有节点的局部集聚系数的均值
$\overline{C}=\frac{1}{n}\displaystyle\sum_{i=1}^{n}C_i$
有更高平均集聚系数的 $G$ 有着模块结构，在不同节点间有更小的平均距离。

Diameter

可以使用2-sweep算法计算无向图的直径，而使用2-dSweep算法计算有向图的直径。

Dominating Set

点支配集（dominating set）
假设 $G = (V, E)$ 是一个简单无向图， $S\subseteq V,S\neq\varnothing$ ，如果 $\forall v\in V-S$ ， $S$ 都有至少一个节点与 $v$ 相邻，则称 $S$ 是 $G$ 的支配集（dominating set）

边支配集（edge dominating set）
假设 $G = (V, E)$ 是一个简单无向图， $F\subseteq E,F\neq\varnothing$ ，如果 $\forall e\in E-F$ ， $F$ 都有至少一条边的节点与 $e$ 的节点重合。则称 $F$ 是 $G$ 的边支配集（edge dominating set）

Matching

minimum maximal matching
在一个无向图 $G$ 中，找到一个边集 $S$ ，这个边集拥有最少的边，这些边能够覆盖 $G$ 中尽可能多的节点。这些边不会共有某个节点。
在这里插入图片描述

Ramsey

待补充

Steiner Tree

metric closure
metric closure（度量闭包）是关于 $G$ 的一个完全图（每个节点都与其他节点相连），这个图的每一条边的权重都由原图 $G$ 的权重计算得到（networkx里是weight属性）。
如下原数据

{
  "node_title": ["id","name","age"],
  "node_title_type": ["string","string","string"],
  "nodes": [
    ["p1","Tayler","32"],
    ["p2","Marco","31"],
    ["p3","Mike","30"],
    ["p4","Lily","26"],
    ["p5","Andy","24"],
    ["p6","Anne","24"],
    ["p7","Ardy","24"],
    ["p8","Andis","24"]
  ],
  "link_title": ["src","dst","name","weight","sdate","edate"],
  "link_title_type": ["string","string","int","string","date","date"],
  "links": [
    ["p1","p2","friend",30,"2010-08-09","2021-08-09"],
    ["p1","p3","friend",25,"2010-08-09","2021-08-09"],
    ["p2","p4","friend",20,"2010-08-09","2021-08-09"],
    ["p4","p5","friend",36,"2010-08-09","2021-08-09"],
    ["p3","p4","friend",40,"2010-08-09","2021-08-09"],
    ["p5","p6","friend",40,"2010-08-09","2021-08-09"],
    ["p6","p7","friend",40,"2010-08-09","2021-08-09"],
    ["p5","p7","friend",40,"2010-08-09","2021-08-09"],
    ["p6","p8","friend",40,"2010-08-09","2021-08-09"]
  ]
}

计算得到的完成图的边的值为：

{
    "p1":{
        "p4":{
            "distance":50,
            "path":["p1","p2","p4"]
        },
        "p2":{
            "distance":30,
            "path":["p1","p2"]
        },
   
        ...............
    }
}

从结果来看，p1和p4之间的边的权重（distance）由原图 $G$ 中 $(p 1, p 2)$ 的权重 $w_{p1p2}$ 和 $(p 2, p 4)$ 的权重 $w_{p2p4}$ 相加得到。

steiner tree

最小斯坦纳树（the minimum Steiner tree）是图 $G$ 中的一棵树，这棵树覆盖了指定的一些点（一般作为参数传入，称为terminal nodes），并且这棵树覆盖的边的权重和最小。

Traveling Salesman

Travelling Salesman Problem(TSP)

TSP问题是希望从图 $G$ 中寻找一条路径，salesman通过这条路径行走可以经过 $G$ 中的所有节点。路径需要满足以下条件：
（1）路径的距离最短。
（2）这条路径起始点和终点是同一个节点。
（3）salesman在行走时只会经过一次节点。
求解TSP问题有四种方法，christofides，greedy_tsp，simulated_annealing_tsp，threshold_accepting_tsp。

christofides 算法
在这里插入图片描述

greedy_tsp算法
greedy指的是贪心算法（greedy algorithm），该算法是指：在对问题求解时，总是做出当前情况下的最好选择。这种最好的选择一般都是局部最优解，不具备后效性，针对TSP问题，贪心算法的求解过程为：
（1）从某一个城市开始，每次选择一个城市，直到走完所有的城市。
（2）每次在选择下一个城市的时候，只考虑当前情况，保证当前经过的路径总距离最小。
假设城市使用数字编号来表示： $1, 2..., N$ ，任何两个城市的距离记录在数组 $d [i, j]$ 中。依次访问过的城市编号被记录在 $s [1], s [2], ..., s [N]$ 中，即第 $i$ 次访问的城市记录在 $s [i]$ 中。
算法的伪代码如下：

(1)s[1]=1
(2)sum=0
(3)initialize the distance array d[i,j]
(4)i=2
(5)search the nearest city j(unvisited) to s[i-1]，get d[i,j]
(6)sum = sum + d[i,j]
(7)s[i]=j
(8)i=i+1
(9) if i<=N,goto(5),else,goto(10)
(10)print s[N]
(11)print sum

simulated_annealing_tsp算法
待补充

threshold_accepting_tsp算法
待补充

Treewidth

图的树分解及树宽
设 $G (V, E)$ 是一个无向图，则图 $G$ 的树分解由树 $T$ 和 $T$ 的每一个节点 $t$ 关联的子集 $X_t\subseteq V$ 构成（此时可称这些子集 $X_t$ 是树分解的片段）。树 $T$ 和片段集 $\{X_t,t\in T\}$ 满足以下3个条件：

（1） $\bigcup (X_t,t\in T)=V$ ，即全部片段集 $X_t$ 中包含的节点涵盖了图 $G$ 的所有节点，或者说图 $G$ 的每个节点至少属于某一个片段 $X_t$ 。
（2）对图 $G$ 的每一条边 $e\in E$ ，至少存在一个片段 $X_t$ ，包含 $e$ 的两个端点。
（3）若 $t_1,t_2,t_3$ 是树 $T$ 的3个节点，其中 $t_2$ 在 $t_1$ 到 $t_3$ 的路径上，那么，若 $G$ 的节点 $v$ 属于 $X_{t1}$ 和 $X_{t3}$ ，则 $v$ 一定属于 $X_{t2}$