机器学习实践/数据预处理/离散特征处理(1)

import pandas as pd 
df = pd.DataFrame([
            ['green', 'M', 10.1, 'class1'], 
            ['red', 'L', 13.5, 'class2'], 
            ['blue', 'XL', 15.3, 'class1']])
#numpy添加列表名称 (记下这种手法:先通过pd.DataFrame()添加数据,再用columns()补充列名)
df.columns = ['color', 'size', 'prize', 'class label']
df

先用比较简单的映射字典法来对离散属性进行处理

'''
把标签转换成数值型   这样的连续化将没有顺序关系的类别变成具有顺序关系0,1,2等,
同时也导致了不同类别之间的距离不相等,简单的用L1范式,0-1距离为1,0-2距离为2
'''

class_mapping = {label:idx for idx,label in enumerate(set(df['class label']))}



'''
df['class label'] 
输出:
0    class1
1    class2
2    class1
Name: class label, dtype: object 

set(df['class label'])
输出:
    {'class1', 'class2'}
是把df['class label']里面的数据装到一个集合里面,并且自动去除重复项


for idx,label in enumerate(set(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值