- 博客(5)
- 收藏
- 关注
原创 Datawhale-机器学习算法-基于决策树的分类预测
Datawhale-机器学习算法-基于决策树的分类预测应用场景由于决策树模型中自变量与因变量的非线性关系以及决策树简单的计算方法,使得它成为集成学习中最为广泛使用的基模型。梯度提升树(GBDT),XGBoost以及LightGBM等先进的集成模型都采用了决策树作为基模型,在广告计算、CTR预估、金融风控等领域大放异彩,成为当今与神经网络相提并论的复杂模型,更是数据挖掘比赛中的常客。在新的研究中,南京大学周志华教授提出一种多粒度级联森林模型,创造了一种全新的基于决策树的深度集成方法,为我们提供了决策树发展
2020-08-22 13:33:22
271
原创 Datawhale数据分析-Task2-part1-数据清洗和特征处理
Datawhale数据分析-Task2-part1-数据清洗和特征处理数据清洗缺失值观察与处理我们拿到的数据经常会有很多缺失值,比如我们可以看到Cabin列存在NaN,那其他列还有没有缺失值,这些缺失值要怎么处理呢方法1:使用isnull().sum()train_df.isnull().sum()'Age’有177个缺失值'Cabin’有687个缺失值'Embared’ 有2个缺失值方法2:info()函数train_df.info()缺失值处理(1) 处理缺失值一般有
2020-08-21 22:51:03
273
原创 Datawahle-数据挖掘-Task1
Datawahle-数据挖掘-Task1本次任务包括注册天池新人赛下载赛题数据集阅读相关学习资料1. 天池新人赛 - 资金流入流出预测数据探索时序特征围绕着日期和时间特征进行数据探索。代码样例如下:# 为数据集添加时间戳data_balance['date'] = pd.to_datetime(data_balance['report_date'], format= "%Y%m%d")data_balance['day'] = data_balance['date'].dt.d
2020-08-20 23:36:02
267
原创 Datawahle机器学习算法-Task1基于逻辑回归的分类预测
Datawahle机器学习算法-Task1基于逻辑回归的分类预测简介本次作业采用阿里云提供的天池平台,模型调用自scikit-learn的linear_model.LogisticRegression。本次作业之后掌握的知识包括1. 基础的逻辑回归理论,2. 用scikt-learn实现预测任务,3. 决策边界的绘图理论逻辑回归实际上是一种因变量基于Binomial分布的模型,从而处理的是分类问题。线性模型经过sigmoid函数变换得到样本是某一类别的概率。采用梯度下降法得到参数。具体实现拟合和
2020-08-20 21:55:46
281
原创 Datawhale数据分析第一章
这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上泰坦尼克的任务,1. 第一章:数据载入及初步观察1.1 载入数据数据集下载 https://www.kaggle.com/c/titanic/overview1.1.1 任务一:导入numpy和pandasimport numpy as npimport pandas as pd1.1.2 任务二:载入数
2020-08-19 22:11:24
334
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅