集成学习——模型的评估与选择
文章平均质量分 94
本专栏聚焦集成学习前沿技术,涵盖决策树原理与优化、聚类算法在无监督集成中的应用、随机森林实战技巧,以及Boosting/Bagging等核心集成方法。系统解析如何通过模型融合提升预测精度,助力AI开发者掌握高效集成策略。
AI妈妈手把手
Hello,大家好,先做一个简单的自我介绍,我是[AI妈妈],一位35+并且在软件开发领域摸爬滚打十余年的技术人,见证了技术迭代如何改变行业生态。如今,在平衡家庭与工作的间隙,我开启了人工智能领域的学习之旅——从Python基础到机器学习算法,从数据预处理到模型调优,我坚持用业余时间啃下每一块硬骨头,现在我想把学习到的经验总结分享给大家,希望能与大家共同成长,一起加油吧~~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从Bagging到随机森林:用“双重随机”打造AI界的“复仇者联盟”
推荐场景。原创 2025-07-22 18:30:00 · 534 阅读 · 0 评论 -
K-means++:让K-means“聪明”地选择初始中心点
K-means++是对传统K-means算法的改进,主要解决了K-means在初始化中心点时可能陷入局部最优解的问题。传统的K-means随机选择初始中心点,这可能导致算法收敛到次优解。而K-means++通过一种更智能的方式选择初始中心点,使得算法更有可能找到全局最优解。🌍 以数学概率模型优化初始质心选择,是K-means最经典的改进方案之一。其与 → 通过外部预处理降低随机性 → 通过内部概率机制提升初始质量💡 横向对比方法初始质心质量收敛速度。原创 2025-06-18 10:56:58 · 1123 阅读 · 0 评论 -
突破K-means终极局限:ISODATA算法完全解读(附实战代码)
是一种改进的聚类算法,它结合了K-means的思想,但增加了动态调整聚类数量的能力。ISODATA可以根据数据的分布情况,自动合并或分裂聚类,从而更灵活地适应不同的数据集。🌈在下一篇博客中,我们将继续探索聚类算法的优化方案,介绍其他有趣的聚类算法或优化技巧。敬请期待哦!🎉如果你对ISODATA或任何其他技术话题有疑问或建议,欢迎在评论区留言!💬希望这篇博客能帮助你更好地理解ISODATA算法!👍🔄👀。原创 2025-06-19 08:15:00 · 904 阅读 · 0 评论 -
人工智能中的集成学习:从原理到实战
集成学习是一种将多个学习器(模型)组合起来,以获得比单个学习器更好性能的方法。它主要有两种类型:思想:并行训练多个模型,每个模型用随机抽样的数据训练,最终投票决定结果(民主投票)🗳️代表算法:随机森林(Random Forest)特点:降低方差,适合高方差模型(如深度决策树)Boosting思想:串行训练模型,后一个模型重点学习前一个的残差或错误样本,逐步优化(接力赛跑)🏃♂️代表算法特点。原创 2025-06-26 16:14:43 · 892 阅读 · 0 评论 -
Kernel K-means:让K-means在非线性空间“大显身手”
尽管该算法强大,但以下场景需谨慎选择数据量 > 10万条:考虑Mini-Batch K-means高维稀疏数据:如文本向量,线性方法更合适严格实时系统:核矩阵计算可能成为瓶颈硬件资源有限:内存不足时无法存储核矩阵。原创 2025-06-19 18:30:00 · 710 阅读 · 0 评论 -
Mini-batch K-Means:加速大规模数据聚类的“利器”
尽管该算法强大,但以下场景需谨慎选择数据量<1万条:传统K-means精度更高且速度可接受要求精确聚类:如科学计算场景,容忍不了>1%的惯性值差异极度非凸数据:需配合Kernel方法(此时选Kernel K-means)动态簇数需求:需ISODATA等动态调整方案。原创 2025-06-20 08:15:00 · 1221 阅读 · 0 评论 -
二分K-means:让聚类更高效、更精准!
二分K-means是对传统K-means算法的改进,它通过递归地将数据集一分为二,逐步增加聚类数量,直到达到指定的K值。这种方法可以避免传统K-means在初始化中心点时可能带来的问题,同时提高聚类的准确性和效率。🌱二分K-means以层次分裂策略重塑K-means流程,是处理大规模稳定聚类的利器。绝对稳定的输出:消除随机初始化影响高效的树形分裂:K-1次迭代完成聚类天然并行化:满二叉树结构适配分布式计算💡 横向对比方法初始点敏感性速度簇均衡性。原创 2025-06-18 16:07:43 · 894 阅读 · 0 评论 -
一文搞懂K-means聚类:原理、选K技巧、实战代码全解析
K-Means算法是一种简单而强大的聚类算法,它的原理简单易懂,应用场景广泛。不过,K值的选择是一个需要仔细考虑的问题,我们可以结合肘部法则和领域知识来确定合适的K值。希望通过今天的分享,大家对K-Means算法有了更深入的了解😎。咱们下次再见👋!原创 2025-06-17 11:39:27 · 3047 阅读 · 0 评论 -
一文搞懂DBSCAN:密度聚类算法原理、优缺点、应用场景与实战代码
DBSCAN(Density-Based Spatial CANoise)是一种基于数据密度的聚类算法,由Martin Ester等人在1996年提出。它的核心思想是:“物以类聚”——高密度区域形成簇,低密度区域则是噪声。他的主要特征如下:✅ 无需预设簇数 ✅ 能识别任意形状簇 ✅ 自带抗噪能力DBSCAN凭借密度思维和抗噪能力,成为处理复杂结构数据的利器。原创 2025-06-20 18:46:35 · 1343 阅读 · 0 评论 -
一文搞懂聚类算法:与分类算法的本质区别
想象一下,你有一大堆五颜六色的球,红的、蓝的、绿的……它们都混在一起。现在,你要做的就是根据颜色把这些球分成不同的组,红色的放一堆,蓝色的放一堆,绿色的放一堆。在机器学习中,聚类算法干的就是类似的事儿,只不过它处理的是数据,而不是球。聚类算法是一种无监督学习算法,它不需要我们提前告诉它数据应该分成几类,或者每一类是什么样的。把相似的数据点自动分到同一组,让同一组(簇cluster)内的数据尽可能相似,不同组的数据尽可能不同👏。原创 2025-06-13 15:58:12 · 1240 阅读 · 0 评论 -
Canopy + K-means:聚类算法的“黄金搭档”优化方案(附代码)
Canopy + K-means 是一种高效、稳定的聚类优化方案,特别适合大规模数据和需要快速得到结果的场景。虽然它也有一些局限性,但通过合理调整参数,可以取得很好的效果!🎉。原创 2025-06-17 15:53:13 · 1197 阅读 · 0 评论 -
决策树剪枝:让你的决策树更“聪明”
决策树剪枝,简单来说,就是对决策树进行“修剪”,去掉一些不必要的分支,让决策树变得更简洁、更高效🌳。就像修剪树木一样,去掉多余的枝叶,让树木能更好地生长。决策树剪枝是提高决策树模型泛化能力的重要手段。预剪枝和后剪枝各有优缺点,我们可以根据具体的数据集和任务需求选择合适的剪枝方法。在实际应用中,我们可以通过交叉验证等方法来选择最优的剪枝参数,以获得性能最好的决策树模型😎。实用建议数据量小 → 优先后剪枝:充分利用有限数据(如CCP/PEP)数据量大 → 考虑预剪枝:减少计算开销(设置。原创 2025-06-12 15:12:16 · 1672 阅读 · 0 评论 -
一招搞定分类问题!决策树算法原理与实战详解(附Python代码)
问题1:"是哺乳动物吗?" → 是 → 进入分支A问题2:"有羽毛吗?" → 否 → 进入分支B→ 最终猜出「老虎」🐯决策树根节点:核心问题(如"X1>5吗?")内部节点:分支判断条件,表示一个属性上的判断代表一个判断结果输出叶节点:最终分类决策结果所以决策树的本质是一颗由多个判断节点组成的树。优点缺点🚀 训练和预测速度快⚠️ 容易过拟合(需剪枝)📝 规则清晰可解释🔀 对数据微小变化敏感(不稳定)原创 2025-06-11 15:01:06 · 1388 阅读 · 0 评论 -
决策树三剑客:CART、ID3、C4.5全解析(附代码)
ID3:信息增益的先驱,简单但有局限C4.5:ID3的升级版,支持连续特征和剪枝CART:强大的二叉树算法,支持分类和回归。原创 2025-06-12 07:45:00 · 731 阅读 · 0 评论 -
决策树家族:DecisionTreeClassifier 与 DecisionTreeRegressor 全解析
和是 scikit-learn 中非常实用的决策树模型,分别用于分类和回归问题。它们具有简单直观、易于理解等优点,但也容易过拟合。通过合理设置参数,我们可以有效地控制模型的复杂度,提高模型的泛化能力。原创 2025-06-13 08:00:00 · 844 阅读 · 0 评论
分享