16、机器学习中的特征选择与形式证明学习方法-优快云博客

本文链接：https://blog.youkuaiyun.com/terraform7cloud/article/details/152261336

机器学习中的特征选择与形式证明学习方法

1. 互信息特征选择

1.1 基本概念

香农熵 ：随机变量不确定性的一种形式化度量。设 $x$ 为离散随机变量，$p(x)$ 为其概率密度函数，$x$ 的熵定义为 $H(x)=-\sum_{i} p(x_i)\log p(x_i)$，当 $p(x_i) = 0$ 时，假定 $p(x_i)\log p(x_i) = 0$。
联合熵与条件熵 ：对于两个随机变量 $x$ 和 $y$，联合熵定义为 $H(x,y)=-\sum_{i,j} p(x_i,y_j)\log p(x_i,y_j)$，条件熵定义为 $H(y|x)=-\sum_{i,j} p(x_i,y_j)\log \frac{p(x_i,y_j)}{p(x_i)}$，且满足链式法则 $H(x, y) = H (x) + H (y|x)$。
互信息 ：$I(x; y)$ 衡量随机变量 $y$ 的实现对 $x$ 的实现提供的平均信息量，$I(x;y)=\sum_{i,j} p(x_i,y_j)\log \frac{p(x_i,y_j)}{p(x_i)p(y_j)}$。

1.2 特征选择标准

给定 $M$ 个特征的集合 $X$，互信息特征选择旨在找到一个子集，其元素与类别 $c$ 具有最大的联合依赖性。直接计算存在困难，因此采用最小冗余最大相关性准则（mRMR）。
- 最大相关性 ：所选特征 $f_i$ 需与类别 $c$ 具有最大的互信息 $I(f_i; c)$，即对类别具有最大的依赖性。
- 最小冗余性 ：为避免所选特征集包含高度冗余的特征，需优化最小冗余准则。
- mRMR 准则 ：同时优化最大相关性和最小冗余性。一种可能的技术是增量式搜索近似最优特征，假设已选择 $m$ 个特征的子集 $S$，增量算法通过优化以下条件选择下一个要添加到 $S$ 的特征：
- 具体条件文中未详细给出，但核心思想是综合考虑特征与类别的相关性以及特征之间的冗余性。

1.3 随机局部搜索（SLS）

增量式特征选择存在两个问题：一是难以确定最优特征数量 $m$；二是可能陷入局部最优解。为解决这些问题，采用随机局部搜索（SLS）程序：
1. 从可用特征集 $X$ 中随机选择一个特征 $f_s$，并设置 $S = {f_s}$。
2. 迭代地根据特定条件将新特征 $f_i \in X\setminus S$ 添加到 $S$ 中，直到给定 $S$ 时，特征 $f_j$ 为类别变量 $c$ 贡献的新信息大于阈值 $\alpha$。
3. 为实现算法的多样化，迭代构建阶段可以以行走概率 $wp$ 进行随机游走（添加随机特征）。
4. 每次构建阶段后，根据分类器的概率误差评估找到的解，并重新开始该过程以寻找更好的解。

1.4 实验结果

在 Mutagenesis ILP 数据集和 UW - CSE SRL 数据集上进行实验：
| 数据集 | 方法 | 参数设置 | 结果 |
| — | — | — | — |
| Mutagenesis | mLynx | $\alpha = 10^{-2}$，restarts = 100，$wp = 0.05$ | 准确率高于 kFOIL，p 值为 0.0455 |
| UW - CSE | mLynx | $\alpha = 10^{-4}$，restarts = 100，$wp = 0.05$ | 在 ROC 和 PR 方面优于 Alchemy，p 值分别为 0.095 和 0.052 |

2. 形式证明的机器学习方法

2.1 背景

形式逻辑发展 ：形式逻辑研究致力于设计一种表达能力足够强的形式理论，以实现复杂数学理论和编程任务的形式化。逻辑编程在 20 世纪 60 年代中期出现，基于一阶逻辑，采用一阶合一和归结方法，许多形式方法工具基于此。
高阶证明助手 ：如 ACL2、AGDA、Coq 和 Isabelle(HOL) 等，可用于解决复杂数学问题和工业级计算机系统验证，但存在编程技能要求高、交互频繁、耗时且昂贵等问题，部分高阶定理证明难以完全自动化。
ML - CAP 方法目标 ：利用统计机器学习工具自动发现常见证明模式，同时利用证明过程中的“负信息”（不成功的证明尝试）。

2.2 方法学

2.2.1 挑战

将机器学习与形式方法结合存在两个主要障碍：
- 语法冲突 ：ITPs 语法对“噪声”零容忍，而机器学习方法中噪声是统计近似的一部分。
- 算法实现差异 ：形式方法中的传统算法通常是顺序实现，而统计机器学习更适合并发，许多算法来自线性代数。

2.2.2 解决方案

采用证明的余代数表示，可避免上述障碍。余代数方法在计算机科学的不同领域有应用，如编程语言的范畴语义、并发系统模型等。其优点包括：
- 余归纳证明和程序通常是并发和/或潜在无限的。
- 提供一种关注计算结构、重复模式和程序执行可观察量的方法。

2.3 实验问题与结果

2.3.1 实验问题

确定了四个机器学习形式证明的基准问题：
1. 分类良构和不良构证明 ：给定良构和不良构余归纳树的示例集，对新的余归纳树进行分类。
2. 发现证明家族 ：给定属于某个证明家族的良构余归纳树的正负示例集，判断新的余归纳树是否属于该家族。
3. 发现潜在成功证明 ：给定属于成功家族的良构余归纳树的正负示例集，判断新的余归纳树是否属于该成功家族。
4. 发现类型错误证明 ：对于定义无限数据结构的余归纳逻辑程序，检测证明家族内的类型良好和类型错误的证明。

2.3.2 实验工具与结果

使用神经网络和 SVM 进行实验：
- 神经网络 ：在 MATLAB 神经网络工具箱中进行，采用标准三层前馈网络，使用缩放共轭梯度反向传播进行训练，针对不同实验使用 40、50、60、70、90 个隐藏神经元。
- SVM ：在 MATLAB 生物信息学工具箱中进行，使用高斯径向基核。

使用不同大小的余归纳证明树数据集（120 - 400 个示例），对两个不同的逻辑程序（ListNat 和 Stream）的证明树进行测试。总体分类成功率超出预期，问题 1 的结果不太理想，但该问题实际影响较小。

以下是实验问题的流程图：

graph LR
    A[确定实验问题] --> B[分类良构和不良构证明]
    A --> C[发现证明家族]
    A --> D[发现潜在成功证明]
    A --> E[发现类型错误证明]
    B --> F[使用神经网络和 SVM 实验]
    C --> F
    D --> F
    E --> F
    F --> G[分析实验结果]

实验结果总结在以下表格中：
| 问题 | 神经网络表现 | SVM 表现 |
| — | — | — |
| 分类良构和不良构证明 | 部分实验结果不太理想 | - |
| 发现证明家族 | 成功率较高 | - |
| 发现潜在成功证明 | 成功率较高 | - |
| 发现类型错误证明 | 成功率较高 | - |

注：SVM 仅对 Stream 的推导树进行了测试。

2.4 余代数方法在形式证明学习中的优势

余代数方法在形式证明的机器学习中具有独特的优势，这些优势与传统方法形成鲜明对比，使得它在处理复杂的证明模式识别问题时表现出色。

2.4.1 特征提取与分类

余代数表示的形式证明能够方便地提取重要的证明特征，这些特征可以被有效地分类和“学习”。通过对证明结构的深入分析，余代数方法可以识别出证明中的重复模式和关键元素，从而为后续的分类任务提供有力支持。

例如，在处理复杂的逻辑程序证明时，余代数方法可以将证明树转化为具有特定结构的表示形式，使得机器学习算法能够更容易地捕捉到证明的本质特征。这种特征提取方式不仅有助于提高分类的准确性，还能够减少计算复杂度，提高算法的效率。

2.4.2 处理并发和无限结构

余代数方法的一个重要特点是它能够处理并发和潜在无限的数据结构。在形式证明中，许多证明过程涉及到并发操作和无限循环，传统的方法往往难以处理这些复杂的情况。

余代数方法通过引入余归纳的概念，能够有效地处理这些问题。余归纳证明和程序通常是并发和/或潜在无限的，这使得余代数方法能够更好地适应形式证明中的实际需求。例如，在处理无限流的证明时，余代数方法可以通过对无限结构的建模和分析，找到证明的关键路径，从而实现对证明的有效分类和识别。

2.5 对未来研究的展望

虽然目前的实验结果表明余代数方法在形式证明的机器学习中具有很大的潜力，但仍然存在一些问题需要进一步研究和解决。

2.5.1 提高分类准确性

尽管整体分类成功率较高，但问题 1（分类良构和不良构证明）的结果不太理想。未来的研究可以致力于改进特征提取方法和机器学习算法，以提高对这类问题的分类准确性。

例如，可以探索更复杂的特征表示方法，结合多种特征进行分类，或者采用更先进的机器学习模型，如深度学习模型，来提高分类性能。

2.5.2 扩展应用领域

目前的实验主要集中在一阶逻辑程序的证明分类上，未来可以将余代数方法应用到更广泛的领域，如高阶逻辑证明、程序验证等。

在高阶逻辑证明中，由于问题的复杂性更高，传统的方法往往难以取得良好的效果。余代数方法的优势在于它能够处理复杂的结构和并发操作，因此有望在高阶逻辑证明中发挥重要作用。

2.5.3 与其他方法的结合

可以考虑将余代数方法与其他机器学习方法或形式方法相结合，以充分发挥各自的优势。

例如，可以将余代数方法与强化学习相结合，通过强化学习的奖励机制来引导证明搜索过程，提高证明的效率和准确性。或者将余代数方法与定理证明器相结合，实现对证明过程的自动优化和验证。

以下是未来研究方向的列表：
1. 改进特征提取方法和机器学习算法，提高分类准确性。
2. 扩展余代数方法的应用领域，如高阶逻辑证明和程序验证。
3. 将余代数方法与其他机器学习方法或形式方法相结合，发挥各自优势。

2.6 总结

本文介绍了互信息特征选择和形式证明的机器学习方法。互信息特征选择通过优化最大相关性和最小冗余性准则，结合随机局部搜索程序，在数据集上取得了较好的实验结果。形式证明的机器学习方法（ML - CAP）利用余代数表示证明，克服了机器学习与形式方法结合的障碍，并在四个基准问题上进行了实验，总体分类成功率超出预期。

未来的研究可以进一步提高分类准确性、扩展应用领域，并探索与其他方法的结合，以推动形式证明机器学习的发展。

以下是整个研究过程的流程图：

graph LR
    A[互信息特征选择] --> B[确定准则]
    B --> C[最大相关性]
    B --> D[最小冗余性]
    C --> E[增量式搜索]
    D --> E
    E --> F[随机局部搜索]
    F --> G[实验验证]
    H[形式证明机器学习] --> I[余代数表示]
    I --> J[克服障碍]
    J --> K[确定基准问题]
    K --> L[实验测试]
    L --> M[分析结果]
    G --> N[总结与展望]
    M --> N

通过以上的研究和实验，我们可以看到机器学习在特征选择和形式证明领域具有广阔的应用前景。随着技术的不断发展和研究的深入，相信这些方法将在更多的领域得到应用，为解决复杂的问题提供有力的支持。