聚类算法:基于熵的框架与谱聚类
1. 基于熵的聚类框架
1.1 数据表示与基本概念
考虑一个包含 $n$ 个 $r$ 维二进制数据向量的集合 $X$,它可以表示为一个 ${0, 1}^{n×r}$ 矩阵 $X = (x_{ij})$,其中每一行是一个数据向量 $x_i = (x_{ij})$。假设矩阵的行集合被划分为 $K$ 个类 $C_1, \cdots, C_K$。
设 $N = nr$ 为矩阵的总元素数,对于每个 $k$,$n_k$ 为属于块 $C_k$ 的行数,$N_k = n_kr$ 为对应块 $C_k$ 的元素总数。对于每一列 $j$($1 \leq j \leq r$),定义 $N_{j,k,1} = \sum_{i\in C_k} x_{ij}$ 和 $N_{j,k,0} = n_k - N_{j,k,1}$ 分别为块 $C_k$ 中第 $j$ 列的 1 和 0 的数量。同时,$N_{j,1}$ 和 $N_{j,0}$ 分别为矩阵 $X$ 第 $j$ 列的 1 和 0 的数量。
1.2 聚类准则
为了识别划分 $\kappa = {C_1, \cdots, C_K}$,提出最大化以下准则:
[Q(\kappa) = \sum_{k=1}^{K} \sum_{j=1}^{r} \sum_{t=0}^{1} \frac{N_{j,k,t}}{N} \log \frac{N N_{j,k,t}}{N_k N_{j,t}}]
1.3 熵的计算
- 聚类块的熵 :对于每个聚类 $C_k$,其划分 $\kappa_k$ 的熵为:
超级会员免费看
订阅专栏 解锁全文
52

被折叠的 条评论
为什么被折叠?



