机器学习_第一篇 过程总结

基本过程

具体问题需要具体分析 
基本处理过程

数据清洗/处理

数据清洗直接影响后期特征和模型的效果,必须重视! 
一些常用python预处理方法参考: 
http://blog.youkuaiyun.com/q383700092/article/details/54571887 
1. 缺失值处理(删除、补全、标记为缺失特征等) 
2. 异常数据处理(删除、平滑等) 
3. 不规范数据规范化 
4. 构建合适样本(解决样本倾斜等) 
5. 划分数据集(train validation test) 
这里写图片描述

特征工程

特征工作是重中之重,特征提不好,模型很难提升上去,特征好了,效果提升很模型。 
https://www.zhihu.com/question/28641663/answer/41653367

特征构造

  1. 根据业务场景来构建特征(特征不要时间穿越,不要用到标签)
  2. 交叉特征(多项式组合,GBDT与LR构造组合特征)
  3. 时间窗口特征
  4. 变换特征(log、归一化等)
  5. 连续特征离散化
  6. 离散特征连续化(独热编码、向量化等)

特征选择

https://www.zhihu.com/question/28641663/answer/41653367 
参考 
http://www.cnblogs.com/payton/p/5260239.html 
http://blog.youkuaiyun.com/q383700092/article/details/53889907 
这里写图片描述
这里写图片描述

模型选择

regression (回归),classification (分类),clustering (聚类)

常见的回归算法

这里写图片描述

常见的分类算法

这里写图片描述

常见的聚类方法

这里写图片描述

规则

结合实际业务背景,简单有效的规则,可用于模型融合。

推荐算法

这里写图片描述

参数优化

交叉验证避免过拟合,针对评测函数优化,重构模型损失函数。 
网格搜索遍历优化等,与模型本身数学推导和数据情况有关,具体略。

资源分配

  • 预处理10%
  • 特征过程60%
  • 模型调整/融合30%

文本处理

这里写图片描述

不平滑数据处理

暂略 
- 过采样/欠采样 
- 代价敏感

集成学习

这里写图片描述 
参考:http://blog.youkuaiyun.com/q383700092/article/details/53557410

迁移学习

暂略

参考数加平台

统计分析

这里写图片描述

网络分析

这里写图片描述

大规模机器学习

这里写图片描述

推荐入门书籍

  • 李航《统计学习方法》
  • 周志华《机器学习》

参考资料

http://www.cnblogs.com/payton/p/5260239.html 
http://blog.youkuaiyun.com/matrix_space/article/details/50541217 
https://github.com/jobbole/awesome-machine-learning-cn 
http://blog.youkuaiyun.com/bryan__/article/details/51745563 
http://blog.youkuaiyun.com/xxinliu/article/details/7408742 
http://www.hankcs.com/ml/ 
https://github.com/Flowerowl/Big_Data_Resources 
http://blog.youkuaiyun.com/q383700092/article/details/53889907

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值