82、机器学习中的学习曲线与结构化数据学习

原创于 2025-10-22 14:16:49 发布 · 30 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#学习控制 #自适应控制 #学习曲线

机器学习与数据挖掘精解专栏收录该内容

100 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的学习曲线与结构化数据学习

1. 学习控制

学习控制是指通过试错为特定控制系统和特定任务获取控制策略的过程。它与自适应控制通常有所区别，学习控制系统在学习过程中允许失败，而自适应控制强调单次试验收敛且不失败。学习控制类似于人类和动物获取新运动策略的方式，自适应控制则是满足严格性能约束的学习控制的特殊情况，例如在飞机和工业机器人等关键系统中。一般来说，控制系统可以是任何响应控制信号而改变状态的系统，如带有超链接的网页、汽车或机器人。

学习控制相关内容可总结如下表：
|控制类型|特点|适用场景|
| ---- | ---- | ---- |
|学习控制|通过试错学习，允许失败|类似人类和动物学习新策略场景|
|自适应控制|单次试验收敛，不失败|飞机、工业机器人等关键系统|

2. 学习曲线

2.1 定义与背景

学习曲线展示了给定领域中预测性能的度量与不同学习努力程度度量之间的函数关系。在机器学习领域，最常见的学习曲线形式是将测试示例的预测准确性表示为训练示例数量的函数。

学习曲线最初在教育和行为/认知心理学中被引入。1885 年，赫尔曼·艾宾浩斯首次描述了学习曲线，他发现记忆无意义音节所需的时间随着音节数量的增加而急剧增加。1936 年，赖特描述了学习对飞机工业劳动生产率的影响，并提出了学习曲线的数学模型。随着时间的推移，该术语在许多不同领域都有了相关解释，包括机器学习和统计学中的上述定义。

2.2 机器学习中的应用

在机器学习领域，“学习曲线”一词在两种不同的上下文中使用，主要区别在于曲线 x 轴上的变量。
- 人工神经网络（ANN） ：ANN 文献中使用该术语来展示给定数量的训练示例下，样本内和样本外性能随训练迭代次数的发散行为。例如，随着训练迭代次数的增加，训练误差和泛化误差会呈现不同的变化趋势。最初，两种误差都会下降，但泛化误差达到最小值后会再次增加，而训练误差会继续下降。这种泛化误差增加的效应与机器学习中高表达能力模型的过拟合和方差误差问题密切相关。早期停止是解决该问题的一种方法，即在验证子集上误差曲线的最小值处选择模型。
- 一般机器学习 ：在更一般的机器学习和统计环境中，学习曲线表示模型的泛化性能与训练集大小的函数关系。例如，对于决策树和逻辑回归等不同建模算法，在较大的领域中，较小训练集大小时曲线较陡，随着训练集大小的增加，准确性的增加会变缓。对于非常大的训练集大小，标准表示可能会掩盖小但重要的增益，因此使用水平轴的对数刻度并从最小训练集大小的准确性开始绘制图表通常很有用。此外，还可以包含误差条，以显示多次实验中误差的估计方差，并提供两条学习曲线之间差异相关性的一些印象。

不同场景下学习曲线的应用对比如下：
|应用场景|x 轴变量|特点|
| ---- | ---- | ---- |
|人工神经网络|训练迭代次数|训练误差和泛化误差有不同变化趋势，可能出现过拟合|
|一般机器学习|训练示例数量|小训练集时曲线陡，大训练集时准确性增加变缓|

下面是人工神经网络学习曲线的 mermaid 流程图：

graph LR
    A[开始训练] --> B[训练误差和泛化误差下降]
    B --> C{泛化误差达到最小?}
    C -- 是 --> D[泛化误差开始增加]
    C -- 否 --> B
    D --> E[训练误差继续下降]
    E --> F[考虑早期停止]

3. 结构化数据学习

3.1 定义与背景

学习结构化数据是指所有那些输入和/或输出对象可以被认为具有内部结构和/或相互关联和依赖，从而形成结构化空间的学习任务。结构化学习任务中的典型数据实例包括语音处理或生物信息学中的序列，以及自然语言处理和文档分析中的语法树、化学中的分子图、社会分析中的关系网络和万维网中的链接图等。学习结构化数据带来了特殊的挑战，因为常用的特征向量表示和独立同分布（i.i.d.）数据假设不再适用。不同形式的结构化数据学习包括归纳逻辑编程、统计关系学习、概率关系和逻辑学习、结构化输出学习、序列学习、树和图学习、图挖掘和集体分类等重叠领域。

长期以来，学习算法几乎只考虑以矩形表格形式表示的数据，其中每一行独立且完整地描述一个对象，每一列包含对象的一个特定属性或特征值。然而，当处理具有内部结构和/或相互关联的对象时，这种表示方式不再适用。例如，用固定列数的表格表示具有不同原子和键数量的化学分子会导致许多空列，并且会给原子和键分配不合理的顺序，从而误导特征向量学习算法。此外，对于相互关联的对象，如语音识别中的声学单元或网页分类中的网页，将它们视为独立同分布的对象的学习算法注定会失败，因为成功的解决方案需要对相互依赖关系进行建模和利用。

3.2 主要任务与解决方案

3.2.1 表示语言

除了属性值表示之外，学习中最深入研究的表示语言是一阶逻辑，特别是一阶 Horn 子句的片段，以及带标签的图。虽然带标签的图可以被视为特殊的关系结构，从而形成一阶逻辑的一个特殊片段，但在机器学习中这两种表示语言是分开处理的。例如，苯环的分子图可以用一阶逻辑表示如下：

atom(a1,carbon). ... atom(a6,carbon).
atom(a7,hydrogen). ... atom(a12,hydrogen).
edge(a1,a2,aromatic). ... edge(a6,a1,aromatic).
edge(a1,a7,single). ... edge(a6,a12,single).
edge(X,Y) <-- edge(Y,X).

这两种表示语言的使用还受到匹配运算符差异的影响。在一阶逻辑中，匹配运算符由逻辑蕴涵或关系同态（通常称为包含）定义，这是逻辑蕴涵的可判定但不完全的变体；而在带标签的图中，匹配运算符由子图同构（即单射同态）定义。

3.2.2 输入和输出数据类型

对于输入数据，可以区分两种主要类型：实例是不相交的结构（结构化实例）或某个全局结构的子结构（结构化实例空间）。化学化合物的原子键结构形成的分子图是结构化实例的常见示例；对于结构化实例空间，网页图是全局结构的一个例子，其中实例集对应于网站形成的顶点集。传统判别学习的主要目标是近似将基础实例空间映射到实数集某个子集的未知目标函数。在某些应用中，目标函数的值域元素也必须是结构化的，这类问题被称为结构化输出空间中的学习，例如蛋白质二级结构预测问题，其目标是近似将蛋白质的一级结构映射到二级结构的函数。

3.2.3 学习任务

除了经典的学习任务（如监督学习、半监督学习、无监督学习、转导学习等），最近的任务还包括新问题，如学习偏好（即有向图，其中从顶点 u 到顶点 v 的边表示 v 比 u 更受偏好）、学习排名（即目标偏好关系必须是全序）等。

解决结构化数据学习问题的算法主要有以下几类：
- 命题化技术 ：如 LINUS 算法，首先通过提取大量命题特征将结构化数据转换为固定宽度的单个表格，然后使用命题学习器。
- 非命题化规则基方法 ：主要遵循从一般到具体（自上而下）或从具体到一般（自下而上）的搜索策略。自上而下搜索（如 FOIL 算法）的关键步骤是定义细化运算符；自下而上搜索（如 GOLEM 算法）对于图结构化数据不太常见，假设的泛化通常由 Plotkin 的一阶子句的最小一般泛化运算符的某种变体定义，但该运算符的应用会带来严重的复杂性问题。
- 基于距离和核的方法 ：最近的结构学习研究非常关注基于距离和核的方法，在准确性方面，这些方法通常优于基于规则的方法。在这些方法中，基本算法与命题情况相同，只是为结构化数据开发了特殊的距离或核函数。由于计算任何完整核（即其底层嵌入函数到特征空间是单射的核）至少与图同构问题一样困难，大多数实用且高效的核基于检查结构中较简单部分（如树、路径、循环等）的出现情况，然后将其计数并有效地用作交集核中的特征向量。
- 统计关系学习 ：扩展了概率图形模型（如贝叶斯网络或马尔可夫网络），加入了关系和逻辑元素，如 Alchemy、ICL、PRISM 等。

结构化数据学习相关内容可总结如下表：
|方面|具体内容|
| ---- | ---- |
|表示语言|一阶逻辑（一阶 Horn 子句）、带标签的图|
|输入输出数据类型|结构化实例、结构化实例空间；结构化输出空间学习|
|学习任务|经典任务及学习偏好、排名等新任务|
|解决方案|命题化技术、非命题化规则基方法、基于距离和核的方法、统计关系学习|

下面是结构化数据学习解决方案的 mermaid 流程图：

graph LR
    A[结构化数据学习问题] --> B{选择表示语言}
    B -- 一阶逻辑 --> C{选择搜索策略}
    B -- 带标签的图 --> C
    C -- 自上而下 --> D[定义细化运算符]
    C -- 自下而上 --> E[使用泛化运算符]
    A --> F[考虑命题化技术]
    A --> G[基于距离和核的方法]
    A --> H[统计关系学习]

4. 应用

虚拟化合物筛选是学习结构化数据的一个代表性应用示例。这是药物研究中的一个计算问题，涉及识别可以开发成候选药物的化学化合物。由于当前的药物化合物库包含数百万种化合物，使用结构化数据学习技术可以更有效地筛选出有潜力的化合物。

5. 不同学习方法对比分析

5.1 学习控制与自适应控制

学习控制和自适应控制在特点和适用场景上存在明显差异，具体对比如下：

控制类型	学习过程特点	收敛要求	适用场景举例
学习控制	允许学习过程失败，通过试错获取策略	不强调单次试验收敛	人类和动物学习新运动策略、部分普通机器人控制场景
自适应控制	不允许失败，强调单次试验收敛	严格收敛要求	飞机、工业机器人等关键系统

从对比中可以看出，学习控制更加灵活，适用于对失败有一定容忍度的场景；而自适应控制则更注重稳定性和可靠性，适用于对性能要求极高的关键系统。

5.2 不同机器学习场景下的学习曲线

在人工神经网络和一般机器学习中，学习曲线的表现和应用也有所不同，具体如下：

应用场景	曲线 x 轴变量	曲线特点	主要问题及解决方法
人工神经网络	训练迭代次数	训练误差和泛化误差先下降，泛化误差达最小后上升，训练误差继续下降	过拟合问题，可采用早期停止策略
一般机器学习	训练示例数量	小训练集时曲线陡，大训练集时准确性增加变缓	大训练集时标准表示可能掩盖小增益，可使用对数刻度和误差条

这种差异反映了不同机器学习场景下的学习规律和挑战。在人工神经网络中，需要特别关注过拟合问题；而在一般机器学习中，要注意处理大训练集时的曲线展示和分析。

5.3 结构化数据学习算法对比

结构化数据学习的几种算法在原理、优缺点和适用场景上各有不同，具体对比见下表：

算法类型	原理	优点	缺点	适用场景
命题化技术	将结构化数据转换为命题特征表格，使用命题学习器	可利用成熟的命题学习算法	可能丢失结构化信息	结构化信息不太关键的场景
非命题化规则基方法（自上而下）	遵循从一般到具体的搜索策略，定义细化运算符	逻辑清晰，可解释性强	可能存在不完备性	对可解释性要求较高的场景
非命题化规则基方法（自下而上）	从具体到一般的搜索策略，使用泛化运算符	能挖掘数据中的潜在规律	计算复杂度高	数据量较小且对潜在规律挖掘要求高的场景
基于距离和核的方法	为结构化数据开发特殊距离或核函数	准确性高	计算核函数复杂度高	对准确性要求高的场景
统计关系学习	扩展概率图形模型，加入关系和逻辑元素	能处理复杂的关系和逻辑	模型复杂，训练难度大	具有复杂关系和逻辑的场景

通过对比不同算法的特点，可以根据具体的结构化数据学习任务选择合适的算法。

6. 学习曲线与结构化数据学习的关联

学习曲线和结构化数据学习虽然是机器学习中的两个不同概念，但它们之间存在着一定的关联。

6.1 学习曲线对结构化数据学习的指导作用

学习曲线可以为结构化数据学习提供关于模型性能和数据利用效率的信息。在结构化数据学习中，不同的算法和模型在不同规模的训练数据下可能有不同的学习效果。通过绘制学习曲线，可以直观地观察到模型在不同训练集大小下的泛化性能，从而确定合适的训练数据规模。例如，在使用基于距离和核的方法处理结构化数据时，学习曲线可以帮助判断是否需要更多的训练数据来提高模型的准确性。

6.2 结构化数据学习对学习曲线的影响

结构化数据的特点也会影响学习曲线的形状和趋势。由于结构化数据通常具有复杂的内部结构和相互关系，模型在学习过程中可能需要更多的训练数据和时间来捕捉这些信息。因此，结构化数据学习的学习曲线可能会比处理简单数据时更加平缓，需要更多的训练示例才能达到较好的泛化性能。例如，在处理化学分子图等结构化数据时，模型可能需要更多的训练数据来学习分子之间的关系和特征。

下面是学习曲线与结构化数据学习关联的 mermaid 流程图：

graph LR
    A[学习曲线] --> B[指导结构化数据学习]
    B --> C[确定训练数据规模]
    D[结构化数据学习] --> E[影响学习曲线形状]
    E --> F[曲线更平缓，需更多训练示例]

7. 实际应用案例分析

7.1 虚拟化合物筛选案例

虚拟化合物筛选是学习结构化数据的一个重要应用场景。在药物研究中，需要从数百万种化学化合物中筛选出有潜力的药物候选物。通过使用结构化数据学习技术，可以更高效地完成这一任务。

例如，使用基于距离和核的方法对化学分子图进行分析。首先，为分子图开发特殊的核函数，将分子图转换为特征向量。然后，使用这些特征向量训练分类模型，以区分有潜力的药物候选物和其他化合物。在这个过程中，学习曲线可以帮助确定合适的训练数据规模，以提高模型的准确性。通过分析学习曲线，发现当训练数据达到一定规模后，模型的准确性提升变得缓慢，此时可以停止收集更多的训练数据，避免不必要的计算资源浪费。

7.2 网页分类案例

在网页分类任务中，网页之间存在着复杂的链接关系，属于结构化数据。可以使用统计关系学习方法来处理这些数据。例如，使用扩展的概率图形模型，加入网页之间的链接关系和逻辑信息。

在训练过程中，通过绘制学习曲线，可以观察到模型在不同训练集大小下的性能变化。对于较小的训练集，模型的准确性较低，学习曲线较陡；随着训练集的增大，准确性逐渐提高，但增加的幅度逐渐减小。通过分析学习曲线，可以选择合适的训练集大小和模型参数，以达到较好的分类效果。

8. 总结与展望

8.1 总结

本文介绍了机器学习中的学习控制、学习曲线和结构化数据学习的相关内容。学习控制通过试错为控制系统获取策略，与自适应控制有明显区别；学习曲线在人工神经网络和一般机器学习中有不同的应用，能反映模型的学习性能和数据利用效率；结构化数据学习针对具有内部结构和相互关系的数据，有多种解决算法。同时，学习曲线和结构化数据学习之间存在着相互影响的关系，在实际应用中可以相互结合，提高机器学习的效果。

8.2 展望

未来，随着数据量的不断增加和数据结构的日益复杂，学习曲线和结构化数据学习将面临更多的挑战和机遇。在学习曲线方面，需要进一步研究如何更准确地预测模型的泛化性能，以及如何利用学习曲线进行模型选择和参数调整。在结构化数据学习方面，需要开发更高效、更准确的算法，以处理大规模、高复杂度的结构化数据。此外，还可以探索学习曲线和结构化数据学习在更多领域的应用，如医疗保健、金融等，为这些领域的数据分析和决策提供更有力的支持。

通过对学习曲线和结构化数据学习的深入研究和应用，可以不断推动机器学习技术的发展，为解决实际问题提供更有效的方法和工具。