基于线性投影扩散的基于补丁的数据和字典构建分析
1. 线性投影扩散离散过程与定理证明
线性投影扩散(LPD)离散过程存在一个“跳跃”现象。该跳跃起始于流形 $M$ 上点 $x$ 处的切向量 $v_x \in T_x(M)$。具体步骤如下:
1. 依据扩散转移概率在 $T_x(M)$ 中选取一点 $y’$。
2. 运用指数映射将 $y’$ 转换为流形 $M$ 上的点 $y = exp_x(y’)$。
3. 将切向量 $v_x \in T_x(M)$ 投影到点 $y \in M$ 处的切空间 $T_y(M)$ 中,得到 $v_y = O_y^T O_x v_x$。
定理 3 的证明借助了原始扩散算子与 LPD 算子之间的关系,详细证明可参考相关资料。
2. 基于补丁到张量嵌入的数据应用分析
LPD 以及由此产生的补丁到张量嵌入(PTE)为众多数据分析任务提供了通用框架,如聚类、分类、异常检测和相关流形学习任务等。下面将展示 PTE 方法在两个数据分析挑战中的应用。
2.1 乳腺组织阻抗测量分类
生物组织的复电阻抗与组织尺寸、内部结构和组成细胞的排列有关。因此,电阻抗能基于异质组织结构、生理状态和功能提供有用信息。近期有一个关于乳腺组织阻抗测量的有趣数据集,该数据集包含 64 名接受乳腺手术患者的乳腺组织样本中记录的 106 个光谱,每个光谱由 12 个在不同频率(从 488 Hz 到 1 MHz)下进行的阻抗测量组成。
使用 PTE 对后处理属性进行分类的步骤如下:
1.
数据归一化
:将给定数据集归一化,使每个属性具有零均值和单位标准差。
2.
构建 LPD 超级核
:使用算法 1 构建 LPD 超级核,具体步骤如下:
- 输入:数据点 $x_1, …, x_n \in R^m$ 以及参数补丁大小 $\rho$ 和 $\ell$。
- 输出:
1. 对于每个 $x \in M$,基于在 $x$ 的小邻域上均匀分布的 $\rho$ 个点,估计其切空间的正交基 $O_x \in R^{m \times d}$。
2. 构建扩散亲和核 $A$。
3. 使用核 $A$ 和矩阵 $O_x$($x \in M$)构建 LPD 超级核 $G$。
4. 通过对构建的 LPD 超级核 $G$ 进行奇异值分解(SVD),为 $j = 1, …, d$ 构建光谱映射 $\Phi(o_j^x)$。
5. 使用光谱映射 $\Phi$ 为每个 $x \in M$ 构建张量 $T_x \in R^{\ell} \otimes R^d$。
3.
选择参数
:$\varepsilon$ 扩散元参数选择为给定数据集中所有数据点对之间的平均欧几里得距离。PTE 构建中的参数 $\ell = 5$ 和 $\rho = 66$ 是通过穷举搜索选择的,以优化分类准确性。
4.
分类性能评估
:采用留一法进行分类,根据嵌入张量空间中的最近邻对每个测量值进行标记,使用 Frobenius 范数作为距离度量。分类性能如下表所示:
| 组织类别 | 正确检测率 | 错误检测率 | 漏检率 |
| ---- | ---- | ---- | ---- |
| 脂肪组织 | 97.2% | 0 | 2.7% |
| 癌组织 | 86.36% | 13.6% | 9.5% |
| FMG 组织 | 93.9% | 6.1% | 6.1% |
2.2 图像分割
图像分割是将像素聚类到对应于单个表面、对象或对象自然部分的图像区域中,在许多计算机视觉任务中起着关键作用。PTE 框架通过 LPD 超级核来观察图像,该核反映了像素之间的亲和力以及相关切空间的投影。
图像分割的步骤如下:
1.
生成数据集
:利用像素颜色信息及其空间 $(x, y)$ 位置(乘以缩放因子 $w = 0.1$),对于一个具有 $I_x \times I_y$ 像素的 RGB 图像,生成一个 $5 \times (I_x \cdot I_y)$ 的数据集 $X$。
2.
嵌入张量空间
:使用算法 1 将 $X$ 嵌入到张量空间中。
3.
选择参数
:$\varepsilon$ 扩散元参数等于数据集 $X$ 中所有点对之间的平均欧几里得距离。PTE 参数 $\ell$ 和 $\rho$ 被选择以生成最均匀的段。
4.
聚类张量
:使用具有“平方差之和”的 k - 均值算法将张量聚类到相似集合中。
图像分割结果表明,扩散时间 $t$ 对分割质量有显著影响。随着 $t$ 的增加,分割变得更加均匀,原始图像中的主要结构可以被分离。同时,$t$ 的增加还会对嵌入空间中数据点之间的成对距离产生平滑效果,导致相似张量之间的距离减小,而不相似张量之间的距离增加,从而可能导致像素标签的改变。
以下是图像分割过程的 mermaid 流程图:
graph TD;
A[生成数据集 X] --> B[嵌入张量空间];
B --> C[选择参数];
C --> D[聚类张量];
综上所述,LPD 和 PTE 方法在乳腺组织阻抗测量分类和图像分割等数据分析任务中表现出了良好的性能。通过合理选择参数,可以优化分类和分割的准确性。未来,这种创新的基于补丁的方法有望与完整的补丁处理数据挖掘框架相结合,进一步发挥其在数据分析中的作用。
3. 字典构建用于补丁到张量嵌入
在高维数据分析中,利用流形结构的核方法(如 k - PCA 和扩散映射)能有效分析数据。但当考虑局部切空间的方向关系时,核的维度会大幅增加,导致谱分解的计算成本显著提高。为解决这一问题,可采用字典构建方法来近似核及其嵌入。
3.1 预备知识
-
流形设置
:设 $M \subseteq R^m$ 是从流形 $M$ 中采样的 $n$ 个点的集合,$d \ll m$ 是 $M$ 的内在维度。在每个点 $x \in M$ 处,有一个 $d$ 维的切空间 $T_x(M)$,它是 $R^m$ 的子空间。如果流形被密集采样,$T_x(M)$ 可以用 $x$ 周围足够小的邻域 $N(x) \subseteq M$ 来近似。设 $o_1^x, …, o_d^x \in R^m$ 构成 $T_x(M)$ 的正交基,矩阵 $O_x \in R^{m \times d}$ 的列就是这些向量,即:
$O_x \triangleq \begin{pmatrix}
| & | & | \
o_1^x & \cdots & o_d^x \
| & | & |
\end{pmatrix}, x \in M$
对于切空间 $T_x(M)$ 中的向量 $u$,$\tilde{u} = O_x u \in R^m$ 是 $u$ 在环境空间基下的 $m$ 坐标表示;对于环境空间 $R^m$ 中的向量 $v$,$v’ = O_x^T v \in T_x(M)$ 是 $v$ 在切空间 $T_x(M)$ 上的线性投影。 -
扩散映射
:原始的扩散映射方法通过定义一个各向同性核 $K \in R^{n \times n}$ 来分析数据集 $M$,其元素为 $k(x, y) \triangleq e^{-\frac{|x - y|}{\varepsilon}}, x, y \in M$,其中 $\varepsilon$ 是算法的元参数。该核表示流形上点之间的亲和力,可看作是数据集 $M$ 上加权图的邻接矩阵。通过对核进行归一化得到行随机转移矩阵 $P$,其元素为 $p(x, y) = \frac{k(x, y)}{q(x)}$,其中 $q(x) = \sum_{y \in M} k(x, y)$。对称共轭 $\overline{P}$ 定义了点之间的扩散亲和力:
$\overline{p}(x, y) = \frac{k(x, y)}{\sqrt{q(x)q(y)}} = \sqrt{q(x)p(x, y)}\frac{1}{\sqrt{q(y)}}, x, y \in M$
扩散映射方法通过对 $\overline{P}$ 进行谱分析,将数据点嵌入到一个通常维度远低于原始数据的欧几里得空间中。 - 线性投影超级核 :对于 $x, y \in M$,矩阵 $O_{xy} = O_x^T O_y \in R^{d \times d}$ 表示切空间 $T_x(M)$ 和 $T_y(M)$ 之间的线性投影,也体现了它们之间的相似性,称为切相似矩阵。设 $\Omega \in R^{n \times n}$ 是定义在 $M$ 上的对称半正定亲和核,其元素 $[\Omega] {xy} = \omega(x, y)$ 表示 $x$ 和 $y$ 之间的亲和力。线性投影超级核 $G \in R^{nd \times nd}$ 是一个分块矩阵,每个块 $G {xy} \in R^{d \times d}$ 定义为 $G_{xy} \triangleq \omega(x, y)O_{xy} = a(x, y)O_x^T O_y, x, y \in M$。超级核 $G$ 既包含了流形上点之间的亲和力,又包含了它们切空间之间的相似性。通过对 $G$ 进行谱分解,可以将流形的补丁 $N(x)$ 嵌入到张量空间中。
3.2 字典构建方法
字典构建方法的目标是近似非标量核的谱分解。具体步骤如下:
1.
构建字典
:根据给定的数据集、核配置和控制参数,构建一个字典。字典中的成员数量取决于这些因素。
2.
近似核
:利用字典和相应的标量核以及扩展系数来近似完整的非标量核。
3.
更新字典
:根据特定条件更新非标量字典,以保证近似误差在一定范围内。
以下是字典构建过程的 mermaid 流程图:
graph TD;
A[构建字典] --> B[近似核];
B --> C[更新字典];
3.3 实验结果:图像分割
将基于字典的分析方法应用于图像分割任务。实验中,通过合理选择字典构建的参数,能够有效地对图像进行分割。实验结果显示,随着扩散时间的增加,图像分割的质量逐渐提高,能够更好地分离出原始图像中的主要结构。同时,字典构建方法能够在一定程度上降低计算成本,提高分析效率。
总结
本文介绍了基于线性投影扩散的数据分析方法,包括 LPD 离散过程、补丁到张量嵌入(PTE)以及用于近似核谱分解的字典构建方法。这些方法在乳腺组织阻抗测量分类和图像分割等数据分析任务中表现出了良好的性能。通过合理选择参数,可以优化分类和分割的准确性。未来,这种创新的基于补丁的方法有望与完整的补丁处理数据挖掘框架相结合,进一步发挥其在数据分析中的作用。同时,字典构建方法为处理高维数据和高维核提供了一种有效的解决方案,能够在保证分析效果的前提下降低计算成本。
以下是本文所涉及方法的总结表格:
| 方法 | 应用场景 | 主要步骤 | 优点 |
| ---- | ---- | ---- | ---- |
| LPD 和 PTE | 乳腺组织阻抗测量分类、图像分割 | 数据归一化、构建 LPD 超级核、选择参数、分类或分割 | 提供通用框架,可优化分类和分割准确性 |
| 字典构建 | 高维数据分析 | 构建字典、近似核、更新字典 | 降低谱分解计算成本 |
超级会员免费看
17

被折叠的 条评论
为什么被折叠?



