Module 2 Data Wrangling
处理缺失值
使用Python去除缺失值
pandas包中的dataframes.dropna(),当inplace参数为True时,直接在原数据框内操作
数据格式化
数据标准化
数据分组
数据转换(Categorical→Numeric)
Why One-Hot Encode Data in Machine Learning?中提到,将分类型数据转为数值型数据的两种方法:
1. Integer-Encoding,针对有序分类变量
2. One-Hot Encoding,针对无序分类变量
可使用pandas.get_dummies()进行转换。
Module 3 Exploratory Data Analysis(EDA)
统计描述
- df.describe()
- value_counts()
- Box Plots
seaborn.boxplot
- Scatter Plot
matplotlib.pyplot.scatter()
Groupby in Python
- df.groupby()
- pivot table(透视表)
df.pivot_table(),转化后便于阅读和查看,但不便于进行数据处理
- Heat Map
方差分析(ANOVA)
相关分析(correlation)
Correlation doesn’t imply causation!
统计相关性
皮尔森相关分析
scipy.stats.pearsonr()
两者相关性很强。
Module 4 Model Development
线性回归
一元线性回归 Simple Linear Regression(SLR)
举例: y^

本文介绍了使用Python进行数据处理的技巧,包括处理缺失值、数据格式化、数据标准化和分组,以及从分类型数据到数值型数据的转换。接着深入探讨了探索性数据分析,如统计描述、方差分析、相关分析和皮尔森相关系数。进一步讲解了线性回归模型的建立,包括一元和多元线性回归,并涉及模型评估和可视化。最后,讨论了模型评估中的过拟合、欠拟合及岭回归等概念,并介绍了网格搜索用于超参数调优。
最低0.47元/天 解锁文章
3401

被折叠的 条评论
为什么被折叠?



