自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 机器学习集成算法:一文理解 随机森林(RandomForest) 模型使用以及参数含义

随机森林是机器学习领域最常用的算法之一,其算法构筑过程非常简单:在构建随机森林时,从提供的数据中随机抽样出不同的子集(这个过程不仅包括样本的随机抽取,还有特征的随机抽取),用于建立多棵不同的决策树,并按照 Bagging 的规则对单棵决策树的结果进行集成(其中回归任务采取平均值,分类任务则遵循少数服从多数的原则)。从原理上来看,随机森林的构造相对简单。但与单棵决策树相比,它学习能力更加强大、算法复杂度更高、又具备一定的抗过拟合能力,是从根本上来说比单棵决策树更优越的算法。

2025-03-05 13:44:49 1297

原创 机器学习集成算法:一文理解 Bagging 算法以及运用策略

Bagging 又称为“装袋法”,它是所有集成学习方法当中最为著名、最为简单、也最为有效的操作之一。在 Bagging 集成当中,我们并行建立多个弱评估器(通常是决策树,也可以是其他非线性算法) ,并综合多个弱评估器的结果进行输出。其规则是当集成算法目标是回归任务时,集成算法的输出结果是弱评估器输出的结果的平均值,当集成算法的目标是分类任务时,集成算法的输出结果是弱评估器输出的结果少数服从多数。

2025-02-21 18:22:29 935

原创 Kaggle数据分析/挖掘实战:二分类问题 Titanic 数据集,四种模型 Train AUC均分84 kaggle Score 均分77 ,从泰坦尼克号的灾难中学习机器学习

Kaggle 数据分析挖掘实战,二分类问题,四种模型 Kaggle Score 均分77。本专栏内容如果有新的更好的方法会不断更新,如果有友友有更好的处理方式得到更高的分,也同样欢迎评论。

2024-10-21 21:38:49 2067

原创 Numpy 数据分析/挖掘入门基础:一文理解 Numpy 数组 axis 参数,轴概念,数组深拷贝情况,基础索引/切片,高维数组索引/切片,布尔索引

本内容针对刚入门的萌新使用,对于刚入门的萌新可以参考学习。包含理解 Numpy 数组 axis 参数,轴概念,数组深拷贝情况,基础索引/切片,高维数组索引/切片,布尔索引

2024-10-18 12:45:07 1959

原创 Numpy 数据分析/挖掘入门基础:Numpy 数组算术运算,布尔运算,集合运算,数组转置和轴对称变换,常用数学/线性代数函数

本内容针对刚入门的萌新使用,对于刚入门的萌新可以参考学习。包含Numpy 数组算术运算,布尔运算,集合运算,数组转置和轴对称变换,常用数学/线性代数函数等。

2024-10-16 20:11:05 1753

原创 Numpy 数据分析/挖掘入门基础:标准引入,Numpy 数组创建,Numpy数组的性质。

Numpy 是 Numerical Python 的简称,是 Python 数值计算中最重要的基础包之一。ndarray:一个高效的多维数组,提供快速基于算术运算和灵活的广播功能。用于对整个数组数据进行快速运算的数学函数,无需编写循环。线性代数,随机生成以及傅里叶快速变换功能。虽然 Numpy 本身并没有提供建模和科学计算功能,但能理解 Numpy 数组以及其带来的面向数组编程的思想将有助于我们高效的利用 pandas 等工具。用于数据整理和清洗,子集构造和过滤,转换等基于数组的快速运算。

2024-10-15 12:33:03 676

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除