机器学习理论
文章平均质量分 92
机器学习司猫白
记录学习里程,记录学习笔记,欢迎大家一起交流
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【多层堆叠集成模型(Stacking Ensemble)详解】
堆叠集成(Stacking,简称Stacking)是一种通过训练多个不同的基学习器(Base Learners),然后再将这些基学习器的预测结果作为新特征,交给一个新的学习器(称为元学习器,Meta Learner)进行训练的集成方法。堆叠集成可以看作是一个层叠结构,其中每一层包含一个或多个模型。原创 2025-03-11 13:50:39 · 1929 阅读 · 0 评论 -
【机器学习中的数据泄露:你必须知道的事】
简单来说,数据泄露就是在训练模型时,模型意外地获得了不该用的额外信息。这些信息通常是模型在预测过程中无法获取的“未来数据”或“目标信息”。一旦数据泄露发生,模型就会提前知道未来的答案,从而产生不真实的高准确率或性能表现。你可能会觉得这样没什么问题,反正模型的表现很好啊,但事实上,当这种泄露发生时,模型在真实环境中的表现通常会大打折扣,甚至完全失效。原创 2025-03-07 11:52:52 · 1726 阅读 · 2 评论 -
【机器学习中的“模型穿越”问题:定义、解决方法】
本质:模型通过训练数据中的“未来信息”提前“偷看答案”,破坏了时间因果性。后果:模型在训练集和验证集上表现优秀,但在真实场景中失效,导致模型过拟合并无法有效泛化到未知数据中。例如,在金融预测、销量预测、股市分析等领域,模型穿越可能导致严重的预测偏差。原创 2025-03-07 11:27:27 · 1540 阅读 · 0 评论 -
XGBoost vs LightGBM vs CatBoost:三大梯度提升框架深度解析
graph TDA[数据规模] -->|>1M样本|B(LightGBM) A -->|<100K样本|C{特征类型} C -->|连续特征为主|D(XGBoost) C -->|类别特征多|E(CatBoost) B --> F{是否需要快速迭代}F -->|是| G(LightGBM+直方图) F -->|否| H(考虑CatBoost)三大框架各有千秋,实际应用中建议:优先使用LightGBM作为baseline类别特征超过30%时切换CatBoost。原创 2025-02-21 14:38:59 · 2568 阅读 · 3 评论
分享