——课程作业驱动的学习之一
——直接看源代码看不懂的结果
——万事开头难的反思
《实用机器学习》——(美)亨里克·布林克等著,机械工业出版社
省略一些;
Chapter 2 实用数据处理
1. 应该包含哪些特征,选择方法:
1)
2)
3)
2. 需要多少训练数据
1)
2)
3)
3. 数据预处理
对于非数值特征,进行预处理;以分类特征为例;
最初个人的想法是:对于分类特征,如神奇宝贝是水系、火系或其他,用1、2、3等表示,但这样约定了类别的顺序(即,本身类别是没有顺序的,但在赋值为1、2、3的时候,约定了顺序);
正确处理方法:
将每个分类特征转换为独立的二进制特征。如性别属于分类特征,转换为两个特征,即Female和Male,每个特征的取值为布尔类型,即取值为0或1。当性别为男,Female列取值为1,Male列取值为0。
4. 缺失数据处理
缺失数据是否有意义:
1)有意义,且属于数据类型:
把缺失值转化成有意义的数值,如-1和999;(这里不是很明白)
2)有意义,属于分类类型:
为缺失值创建一个分类,如Missing或None,标识该特征是否缺失;如Missing,1表示缺失;
3)无意义:
3.1)大数据集,缺失数据少且随机:删除缺失数据实例;
3.2)大数据集;按时间按有序(如一段时间的温度):用前面的数据代替缺失的数据;
3.3)否则,数据若遵从简单分布:用平均值插补或用中值插补(当有极端异常值时)
若不遵从简单分布:使用简单机器学习模型插补;
5. 特征工程
即根据相关领域知识,使用已存在的特征创建新特征来提高原数据的价值。
6. 数据规范化
7. 数据可视化
共四类方法,马赛克图(分类型—分类型),盒图(数值—分类),密度图(分类—数值),散点图(数值—数值)。
该章的代码练习及解释:
Pycharm中,
Ctrl+Alt+L,自动补全空格;
自动补全import,光标定位在红色波浪线处,Alt+Enter,出现代码修改提示;