机器学习的多种编码方式,独热、标签等

一. 常见的特征类型

我们在学习机器学习的时候,往往会遇到各色各样的数据集。在拿到数据集那一刻,我们应该仔细看看数据集的内部情况。每一个样本通常带有多个特征的,一般特征类型分为连续型特征和离散型特征,离散型特征又分为类别特征和数值特征,性别(男,女)就是典型的类别特征。
编码往往应对的就是类别特征,无论是连续型特征,还是离散数值型特征,都可以通过简单的归一化就送进机器学习模型当中去。然而对于类别特征,仅有少数的模型支持字符串形式的类别特征的处理,例如决策树。因此,我们需要针对不同的场合,采用合适的编码方式对类别特征进行数值化。

二、编码方式

我们在学习sklearn和参加kaggle竞赛的时候,常常遇见各种类型的数据,需要采取适合的方式去编码,接下来就讲解目前主要的编码方式。

2.1 独热编码

什么是独热编码?为什么使用独热编码?在什么时候使用?我们需要带着这些疑问进行学习。
One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。也就是说该离散型类别特征有N个不同的取值,就有N个状态,就用N位寄存器(N位二进制)来表示N个不同的值。每N个比特位表示的值只有一个是1,其余为0,其实就是以二进制的形式表示,主要用于特征内部取值是无序的,例如颜色(红,蓝,绿。
独热编码在机器学习中的应用实

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值