27、机器学习中的可重复性、训练挑战与高维优势

最新推荐文章于 2025-12-17 18:47:30 发布

tequila

最新推荐文章于 2025-12-17 18:47:30 发布

阅读量56

点赞数

CC 4.0 BY-SA版权

分类专栏：信息驱动的机器学习文章标签：机器学习可重复性再现性

本文链接：https://blog.youkuaiyun.com/tequila/article/details/151573336

信息驱动的机器学习专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的可重复性、训练挑战与高维优势

1. 可重复性与再现性的概念

在机器学习领域，可重复性和再现性是至关重要的概念，但近年来却面临着一些问题。获取可重复的实验结果所需的实验负担要比赢得基准测试的负担高得多。赢得基准测试可能只是个例结果，并不能保证可重复性，这就如同证明某种药物普遍有效和仅证明其有个别效果的区别。近年来，机器学习领域的出版文化降低了对可重复性的要求，转而追求良好的结果，这引发了所谓的“可重复性危机”。

为了解决这一问题，一些专业组织，如美国计算机协会（ACM），开始制定可重复性标准。ACM 将实验验证机制分为三类：
- 重复性（同一团队，相同实验设置） ：同一团队在相同的测量程序、测量系统、操作条件和地点下，多次试验能够以规定的精度获得测量结果。对于计算实验而言，这意味着研究人员可以可靠地重复自己的计算。
- 再现性（不同团队，相同实验设置） ：不同团队在相同的测量程序、测量系统、操作条件下，在相同或不同地点多次试验能够以规定的精度获得测量结果。对于计算实验，这意味着独立团队可以使用作者的原始工件获得相同的结果。
- 可复制性（不同团队，不同实验设置） ：不同团队使用不同的测量系统，在不同地点多次试验能够以规定的精度获得测量结果。对于计算实验，这意味着独立团队可以使用他们完全独立开发的工件获得相同的结果。

需要注意的是，ACM 对可复制性的定义与通常所说的再现性最为相符。区分研究团队内部和团队之间的重复性是很重要的，因为原始实验团队可能会记住实验状态并将其作为隐含假设应用到实验中，而确保这些隐含假设在规范中明确表达的唯一方法是让独立团队再现结果。

2. 实现再现性的挑战与方法

实现再现性，即让另一个团队能够使用独立开发的代码工件获得相同的结果，对于极其庞大的模型来说是一个巨大的挑战，因为这些模型很难在论文中以可重复的方式描述。然而，研究人员有责任证明他们的结果不是个例，只有这样才能使其具有科学有效性。一篇描述模型的论文在未实现可重复性之前，不应被视为获得了科学知识。

不过，如果想要实现可重复性，也有一些方法可以使事情变得更容易。根据推论，所有具有相同内存等效容量（MEC）的模型都能够实现相同的功能。因此，为了再现结果，选择何种类型的机器学习器或具体创建何种架构并不重要，关键是要报告智力容量这一主要参数以保证可重复性。但测量精确的 MEC 有时可能很棘手，不过研究人员可以自由选择创建更容易测量 MEC 的机器学习器。

另一个挑战是训练通常只能得到局部最小误差。由于 MEC 假设是完美训练，两个具有相同 MEC 的机器学习器可能不会收敛到完全相同的精度，因为两次训练运行的结果永远不会完全相同。为了解决训练结果的不确定性，可以进行多次训练运行并报告多次运行的平均精度。

3. 超越再现性

再现性似乎是一个很高的标准，因为它超越了客户满意度。构建一个可再现的模型确实创造了知识，例如“我们知道如何解决问题 X”，但这也留下了进一步的问题，如“为什么这是解决 X 的方法？”或“如何将 X 的解决方案扩展到 Y？”

传统科学方法意味着对模型的理解，包括知道何时可以应用模型、其潜在假设以及应用模型的陷阱和缺点。此外，模型需要与其他模型、理论和解释保持一致。知识创造领域遵循一个蕴含层次结构，例如语言是理解哲学的基础，数学使哲学形式化，物理学依赖于数学，化学依赖于物理学，生物学依赖于化学。在一个领域中创建的模型如果与层次结构中更高层次的领域产生矛盾，通常会被认为是错误的。因此，为了实现科学过程的自动化，机器学习创建的模型不仅要可再现，还要符合这个蕴含层次结构，有时遵循这个层次结构比经验准确性更重要。

验证机制类型	定义	计算实验含义
重复性	同一团队在相同条件下多次试验以规定精度获得测量结果	研究人员可靠重复自己的计算
再现性	不同团队在相同实验设置下多次试验以规定精度获得测量结果	独立团队使用作者原始工件获相同结果
可复制性	不同团队在不同实验设置下多次试验以规定精度获得测量结果	独立团队使用独立开发工件获相同结果

graph LR
    A[语言] --> B[哲学]
    B --> C[数学]
    C --> D[物理学]
    D --> E[化学]
    E --> F[生物学]

4. 训练的困难

训练过程给机器学习领域蒙上了一层模糊的面纱。一般来说，无论使用何种机器学习模型或训练程序，训练都难以轻易收敛到全局最小值。训练可以被看作是一个打包问题，其主要目标是将尽可能多的训练数据表中的行分配到机器学习器的每个参数上，以同时最大化准确性和泛化能力。

例如，“训练一个 3 节点神经网络是 NP 完全问题”的研究表明，训练一个简单的 3 节点神经网络是计算机科学中最难的问题之一。类似地，决策树问题和符号回归问题的训练也面临着复杂的优化难题。通常，这些问题会使用网格搜索、梯度下降或贝叶斯优化等方法进行近似求解，但这些方法在高维空间中的计算成本可能很高。

更糟糕的是，无法确定训练过程是否真的收敛到了全局最小误差，甚至无法确定离全局最小误差还有多远，因为这需要知道要拟合的整个函数，而如果已知该函数就无需进行拟合了。因此，通常会使用假设来确定训练算法的停止点，在这种不确定性下，人们很容易只关注准确性。

5. 常见的解决方法

为了加速训练过程，通常会采用一些变通方法：
- 硬件支持 ：硬件支持可以使更复杂的模型得到高效训练，特别是对于大型神经网络模型。图形处理单元（GPU）和张量处理单元（TPU）是常见的硬件加速器。GPU 最初是为视频游戏和其他图形密集型应用开发的，由于其能够同时进行许多并行计算，因此非常适合训练神经网络。TPU 是专门为神经网络训练和推理设计的定制芯片，针对矩阵乘法进行了优化，相比 GPU 可以提供更大的加速。然而，硬件支持并非万能的，选择硬件时需要平衡成本、功耗以及模型的大小和复杂度等因素。此外，硬件支持本身并不能解决打包问题，中间件或编译器还需要解决将神经网络的拓扑描述映射到硬件架构指令的另一个打包问题。
- 早停法 ：早停法最初是为了防止过拟合而发明的，它通过监控验证指标，在指标停止改善或开始下降时停止训练。其目的是找到一个模型能够很好地泛化到新数据的点，同时最小化过拟合的风险。早停法是一种正则化技术，具有减少训练时间的积极效果，但它会以不透明的方式有效降低模型的内存等效容量，而不实际减少参数占用空间，这会影响模型的可重复性和可解释性。

解决方法	优点	缺点
硬件支持	加速复杂模型训练	成本高、功耗大，不能解决打包问题
早停法	减少训练时间，防止过拟合	降低内存等效容量，影响可重复性和可解释性

graph LR
    A[训练困难] --> B[硬件支持]
    A --> C[早停法]
    B --> D[GPU加速]
    B --> E[TPU加速]
    C --> F[监控验证指标]
    F --> G[停止训练]

6. 高维空间的挑战与机遇

在机器学习中，高维空间既带来了挑战，也蕴含着机遇。从挑战方面来看，训练过程难以保证收敛到全局最优解，这使得可重复性和可解释性的实现变得困难。如果训练每次都能保证收敛到全局最优，可重复性的实现将变得轻而易举；如果信息能从输入到输出直接进行降维处理，可解释性也会容易得多。

然而，高维空间也为解决问题提供了新的途径。引入虚拟维度创建所谓的嵌入可以解决原本不适定的问题。在高维空间中建模，能够将原本难以处理的问题转化为更易于解决的形式，这是高维空间带来的机遇。

7. 硬件支持的深入分析

虽然硬件支持在加速神经网络训练方面具有重要作用，但它并非是解决所有问题的万能钥匙。在选择硬件时，需要综合考虑多个因素。

首先是成本因素。GPU 和 TPU 等硬件加速器的购买和使用成本相对较高，对于一些资源有限的团队或项目来说，可能难以承受。例如，购买高性能的 GPU 集群需要大量的资金投入，而且后续的维护和更新成本也不容小觑。

其次是功耗问题。这些硬件在运行过程中会消耗大量的电能，不仅增加了使用成本，还对环境造成了一定的压力。以数据中心为例，大量的 GPU 和 TPU 设备运行会导致极高的功耗，使得数据中心的运营成本大幅上升。

此外，硬件支持本身并不能解决训练中的打包问题。中间件或编译器需要将神经网络的拓扑描述映射到硬件架构的指令上，这又涉及到另一个打包问题，即如何将计算向量（SIMD 指令）打包到可并行化的单元中。在实际操作中，选择恒定大小的打包方式可以在一定程度上简化这个问题，但这也需要根据具体情况进行权衡。

8. 早停法的影响评估

早停法作为一种防止过拟合的技术，在减少训练时间方面具有明显的优势。通过监控验证指标，在合适的时机停止训练，可以避免模型过度拟合训练数据，从而提高模型对新数据的泛化能力。

然而，早停法也存在一些负面影响。它会以一种不透明的方式降低模型的内存等效容量（MEC），而不实际减少参数的占用空间。这意味着模型的实际能力可能被削弱，并且由于 MEC 的降低方式不明确，会对模型的可重复性和可解释性产生影响。在实际应用中，研究人员需要谨慎使用早停法，充分考虑其对模型性能和可解释性的影响。

9. 综合应对策略

为了应对机器学习中的可重复性、训练挑战和高维空间问题，需要采取综合的应对策略。

在可重复性方面，研究人员应严格遵循 ACM 制定的标准，确保实验结果能够被其他团队再现。同时，要注重报告模型的内存等效容量（MEC），尽管测量 MEC 可能存在困难，但这是保证可重复性的关键参数。

对于训练困难的问题，可以结合硬件支持和早停法等方法。在选择硬件时，要根据模型的大小、复杂度以及项目的预算和资源情况进行合理选择。早停法可以在一定程度上减少训练时间和防止过拟合，但需要注意其对模型 MEC 的影响。

在高维空间中，要充分利用嵌入技术解决不适定问题，但也要关注训练过程中的收敛问题。可以通过多次训练运行并报告平均精度的方式来解决训练结果的不确定性。

应对策略	具体措施
可重复性	遵循 ACM 标准，报告 MEC
训练困难	结合硬件支持和早停法，合理选择硬件
高维空间	利用嵌入技术，多次训练报告平均精度

graph LR
    A[可重复性问题] --> B[遵循ACM标准]
    A --> C[报告MEC]
    D[训练困难问题] --> E[硬件支持]
    D --> F[早停法]
    E --> G[合理选择硬件]
    H[高维空间问题] --> I[利用嵌入技术]
    H --> J[多次训练报告平均精度]

10. 总结

机器学习中的可重复性、训练挑战和高维空间问题是当前领域面临的重要难题。可重复性危机需要通过制定标准和严格的实验验证来解决，研究人员要承担起证明结果科学性的责任。训练困难是由于难以收敛到全局最优解和高维空间的复杂性导致的，硬件支持和早停法等方法可以在一定程度上缓解这些问题，但需要综合考虑各种因素。高维空间既带来了挑战，也为解决问题提供了新的机遇，研究人员要善于利用嵌入技术。通过采取综合的应对策略，有望推动机器学习领域的健康发展，实现科学过程的自动化和知识的有效创造。