机器学习全流程详解-优快云博客

本文链接：https://blog.youkuaiyun.com/persistinlife/article/details/104336702

1.加载数据，查看总体情况pandas。如果文件过大则用chunck分块

2.数据预处理

3.特征工程

丢失值
- 填充0 或者None看数据说明
- Counter后如果分布很少，缺失的非常多考虑去除该列
- 填充：中位数平均数众数（考虑使用groupby对相似列分组后进行填充。
编码
- one-hot 编码
- 数字编码 LabelEncoder
- 增加新的特征组合特征等

4.建立模型准备

5.建立模型

岭回归损失函数+l2范式也就是平方 缩小不重要特征但不会消除
Lasso回归损失函数+l1倾向消除不重要的特征一次项容易达到拐点
ElasticNet弹性网络综合岭回归和lasso
SVM
- SVR 回归
- SVC 分类
- 非线性SVM可以添加特征使用核技巧对输入x增加变换例如x^2等
min1/2 * w^2 t(wx+b)>=1 使用拉格朗日乘子法

使用SMO求解基本思想是限定两个变量求取

svm损失函数类似hinge函数最小化损失函数使得每个点都在边界两边。
决策树
- ID3信息增益
- 信息增益率
- CART jini系数进行的是二值划分 gini-0说明该分支是纯的
bagging 采样放回 pasting采样不放回产生多个分类器预测再汇总结果
随机森林随机取样本+随机取特征
GBRT梯度提升树（残差）GBDT梯度决策树样本-tree1->–残差–>tree2
Adaboost 不同于GBRT ，这里是对分类错的样本调整权重样本-tree1->–调整权重–>tree2
XGBoost 样本->tree1->根据一个复杂的公式->tree2->…

f = rT+1/2 * d* sum(w^2) r叶子个数 w叶子权重即分枝时考虑树的复杂度
Lightbgm 处理大数据集更具优势
catboost 自动处理类别变量

机器学习问题处理流程