机器学习模型组合与自然语言处理入门
1. 模型组合方法
在机器学习中,团队合作(模型组合)往往能带来比单个模型更好的结果,尽管这可能违背奥卡姆剃刀原则(单个模型可能产生更简单的理论)。以下是几种常见的模型组合方案:
1.1 投票与平均
这是最容易理解的模型聚合类型,最终输出是多个模型预测输出值的多数结果或平均值。也可以为集成中的每个模型分配不同的权重,例如某些模型可以计为两票。不过,组合高度相关的模型结果并不能保证显著的改进,最好通过使用不同的特征或算法来使模型多样化。如果发现两个模型强相关,可以考虑从集成中移除其中一个,并按比例增加另一个模型的权重。
1.2 装袋(Bagging)
装袋(Bootstrap aggregating)是 Leo Breiman 在 1994 年引入的算法,它将自助法(Bootstrapping)应用于机器学习问题。自助法是一种通过有放回抽样从现有数据创建数据集的统计程序,可用于分析算术平均值、方差或其他量可能取的值。该算法旨在通过以下步骤降低过拟合的可能性:
1. 通过有放回抽样从输入训练数据生成新的训练集。
2. 为每个生成的训练集拟合一个新模型。
3. 通过平均或多数投票组合模型的结果。
以下是装袋步骤的流程图:
graph LR
A[输入训练数据] --> B[有放回抽样生成新训练集]
B --> C[为每个新训练集拟合模型]
C --> D[平均或多数投票组合结果]
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



