所有变量可以分为两种:
一、类型变量。
例如:天气情况可以从1-4中取值,可以用1表示晴天,2表示多云,3表示雨天,4可以表示雪天,诸如此类,我们统称为类型变量,这里需要注意一点是,这些数字大小并没有实际的意义,如4比1大,但不代表雪天就会比晴天更好。
二、数值变量。
例如:分数,温度等,这些可以从一个数值区间中连续取值的变量我梦统称为数值变量。
通过以上我们发现,不同类型变量的数值含义也不同,因此,在进行研究前我们需要对其进行预处理。
数据预处理:
类型变量→独热编码(one-hot)
将类型变量转化为独热编码
| 季节类型 | 独热编码 |
|---|---|
| 1 | (1,0,0,0) |
| 2 | (0,1,0,0) |
| 3 | (0,0,1,0) |
| 4 | (0,0,0,1) |
代码:
dummy_fields = ['所有类型的编码变量的名称'

本文介绍了数据预处理中的关键步骤,包括类型变量的独热编码和数值变量的标准化处理。类型变量通过独热编码转换为二进制形式,如天气情况的晴天、多云、雨天、雪天。数值变量则通过减去均值并除以标准差实现标准化,使其均值为0,标准差为1。预处理对于后续的机器学习模型训练至关重要,能够提高模型的准确性和泛化能力。
最低0.47元/天 解锁文章
827

被折叠的 条评论
为什么被折叠?



