特征变换

1.One-Hot Encoding
有多少个状态就用几个bit来进行表示,实际上是向量维度增加了。

树形模型不进行One-Hot Encoding

from sklearn.preprocessing import OneHotEncoder
import pandas as pd
data = pd.DataFrame({'number': [1, 2, 1], 'age': [20, 25, 30], 'height': [175, 178, 180]})
arr = OneHotEncoder(sparse=False).fit_transform(data[['age','height']])


2.标签二值化
OneHotEncoder无法对字符串进行编码,可以使用LabelBinarizer进行字符串编码。
接收矩阵数据

from sklearn.preprocessing import LabelBinarizer
data = pd.DataFrame({'name': ['zhang', "li", "song"], 'age': [20, 25, 30], 'height': [175, 178, 180]})
labelBinarizer = LabelBinarizer()
newarr3 = labelBinarizer.fit_transform(data['age'])


3.标签数值化

LabelEncoder可以把标签变成多值

from sklearn.preprocessing import LabelEncoder
data = pd.DataFrame({'name': ['zhang', "li", "song"], 'age': [20, 25, 30], 'height': [175, 178, 180]})
labelEncoder = LabelEncoder()
newarr4 =labelEncoder.fit_transform(data['name'])

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值