集成学习:提升机器学习性能的有效策略
1. 集成学习的基本概念
在机器学习中,集成学习是一种强大的技术,它借鉴了阿波罗计划中三重模块化冗余的思想。在阿波罗计划里,多台计算机接收相同输入并独立计算结果,最终通过多数表决来确定输出,这样即使其中一台计算机受损,也能得出正确答案。
在机器学习中,我们将多个相似的学习器组合在一起形成集成。与阿波罗计划中相同的软硬件不同,我们通过让每个学习器在略有不同的数据上进行训练,使其具有独特性。这样一来,一个学习器所犯的错误不太可能被其他学习器以相同的方式重复,多数表决机制有助于我们排除错误决策。
2. 投票机制
决策对于计算机和人类来说都并非易事。在人类社会中,我们常常通过聚合多人的意见来应对个体决策的不足,例如参议院通过法律、董事会做出财务决策、民众通过投票选举领导人等。同样,在机器学习中,学习算法的预测基于训练数据,如果训练数据存在偏差、遗漏、代表性不足等系统性错误,这些错误也会被融入学习器中,从而在实际应用中产生不良影响。
为了减少这些问题的影响,我们可以创建多个在不同数据集上训练的学习器。通常,我们会让这些学习器对每个新输入进行评估,然后通过投票来确定最终结果。常见的投票方式有以下两种:
- 多数投票 :每个学习器为其预测结果投一票,获得最多票数的预测即为获胜者。若出现平局,计算机可以随机选择一个平局项,或者进行另一轮投票。多数投票虽然并不完美,但它简单、快速,在机器学习中通常能产生可接受的结果。
- 加权多数投票 :每个投票都有一定的权重,这个权重决定了该投票对结果的影响程度。此外,还可以让每个投票者
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



