《实用机器学习》学习笔记1

本文探讨了机器学习中数据预处理的关键步骤,包括特征选择、数据清洗、缺失值处理和特征工程等内容,并介绍了如何通过预处理提升模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

——课程作业驱动的学习之一

——直接看源代码看不懂的结果

——万事开头难的反思

《实用机器学习》——(美)亨里克·布林克等著,机械工业出版社

省略一些;

Chapter 2 实用数据处理

1. 应该包含哪些特征,选择方法:

1)

2)

3)

2. 需要多少训练数据

1)

2)

3)

3. 数据预处理

对于非数值特征,进行预处理;以分类特征为例;

最初个人的想法是:对于分类特征,如神奇宝贝是水系、火系或其他,用1、2、3等表示,但这样约定了类别的顺序(即,本身类别是没有顺序的,但在赋值为1、2、3的时候,约定了顺序);

正确处理方法:

将每个分类特征转换为独立的二进制特征。如性别属于分类特征,转换为两个特征,即Female和Male,每个特征的取值为布尔类型,即取值为0或1。当性别为男,Female列取值为1,Male列取值为0。

4. 缺失数据处理

缺失数据是否有意义:

1)有意义,且属于数据类型:

把缺失值转化成有意义的数值,如-1和999;(这里不是很明白)

2)有意义,属于分类类型:

为缺失值创建一个分类,如Missing或None,标识该特征是否缺失;如Missing,1表示缺失;

3)无意义:

3.1)大数据集,缺失数据少且随机:删除缺失数据实例;

3.2)大数据集;按时间按有序(如一段时间的温度):用前面的数据代替缺失的数据;

3.3)否则,数据若遵从简单分布:用平均值插补或用中值插补(当有极端异常值时)

若不遵从简单分布:使用简单机器学习模型插补;

5. 特征工程

即根据相关领域知识,使用已存在的特征创建新特征来提高原数据的价值。

6. 数据规范化

7. 数据可视化

共四类方法,马赛克图(分类型—分类型),盒图(数值—分类),密度图(分类—数值),散点图(数值—数值)。


该章的代码练习及解释:

Pycharm中,

Ctrl+Alt+L,自动补全空格;

自动补全import,光标定位在红色波浪线处,Alt+Enter,出现代码修改提示;



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值