机器学习中的端到端学习与集成学习
1. 端到端学习中的性能评估
在端到端学习中,我们通常会绘制三条学习曲线来评估模型性能:
- 训练数据性能曲线 :在每个训练周期结束时,评估模型在训练集上的性能并绘制曲线。对于分类任务,该性能指的是训练集(或训练集的固定子集)上的分类错误率。这条曲线应与其他相关曲线高度相关,否则可能表示学习的公式存在问题或实现有错误。
- 开发数据性能曲线 :在每个训练周期结束时,评估模型在未见过的开发集上的性能并绘制曲线。这条曲线是确定学习算法何时应终止的良好指标。此外,训练数据性能曲线和开发数据性能曲线之间的差距可以提供很多关于当前学习模型是欠拟合还是过拟合的信息。根据差距大小,我们可能需要相应地调整模型大小或修改使用的正则化方法。
2. 传统机器学习系统与端到端学习
2.1 传统机器学习系统
传统机器学习系统通常涉及多个独立步骤的流水线,例如特征提取和模型构建。对于复杂任务,每个步骤还会进一步划分为一些独立的模块。以传统语音识别系统为例,模型构建通常至少会分解为三个模块:声学模型、词典模型和语言模型。这些子模块通常根据各自收集的数据独立训练,仅优化与每个模块相关的局部学习准则。
2.2 端到端学习
端到端学习是指训练一个单一模型,该模型可以直接将原始数据作为输入,映射到最终目标作为输出,绕过传统流水线设计中的所有中间模块。端到端学习需要一个强大的模型来处理传统流水线中的所有复杂含义。深度神经网络在建模能力上表现出色,并且在结构配置上非常灵活,可以适应各种数据类型,如静态模式和序列。我们可以利
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



