python类别变量(class_label)转换为One_Hot的几种方式

    首先解析一下,one_hot (独热)编码,和dummy variable(哑变量)的区别:

    在用keras时候,有一个模块写好one_hot转换

from keras.utils import to_categorical
data = [1, 3, 2, 0, 3, 2, 2, 1, 0, 1]
encoded=to_categorical(data)
print(encoded)

则打印出来的结果为:

[[ 0.  1.  0.  0.]
 [ 0.  0.  0.  1.]
 [ 0.  0.  1.  0.]
 [ 1.  0.  0.  0.]
 [ 0.  0.  0.  1.]
 [ 0.  0.  1.  0.]
 [ 0.  0.  1.  0.]
 [ 0.  1.  0.  0.]
 [ 1.  0.  0.  0.]
 [ 0.  1.  0.  0.]]
def to_categorical(y, num_classes=None):
    y = np.array(y, dtype='int')
    input_shape = y.shape
    if input_shape and input_shape[-1] == 1 and len(input_shape) > 1:
        input_shape = tuple(input_shape[:-1])
    y = y.ravel()
    if not num_classes:
        num_classes = np.max(y) + 1
    n = y.shape[0]
    categorical = np.zeros((n, num_classes))
    categorical[np.arange(n), y] = 1
    output_shape = input_shape + (num_classes,)
    categorical = np.reshape(categorical, output_shape)
    return categorical

在sklearn中的one_hot编码

from sklearn import preprocessing
import numpy as np
label = preprocessing.LabelEncoder()
one_hot = preprocessing.OneHotEncoder(sparse = False)
cat_data =([1,3,2], 
           [2,1,1],
          [4,2,2])
print one_hot.fit_transform(cat_data)

打印的结果为

[[1. 0. 0. 0. 0. 1. 0. 1.]

 [0. 1. 0. 1. 0. 0. 1. 0.]
 [0. 0. 1. 0. 1. 0. 0. 1.]]

 

如果是二分类(二进制)则,还可以用以下方法,定义一个函数

 

def cat_to_num(data):
    categories = unique(data)
    features = []
    for cat in categories:
        binary = (data == cat)
        features.append(binary.astype("int"))
    return features
import numpy as np
cat_data =np.array(['male', 'female', 'male', 'male'])

cat_to_num(cat_data)

打印出

[array([0, 1, 0, 0]), array([1, 0, 1, 1])]

    上文定义的这个转换函数可以是1维的,且可以是字符串

 

    当然在sklearn中也有实现的方法,(二进制 / 二分类编码)

from sklearn.preprocessing import Binarizer

Binarizer如果直接调用的话必须是二维矩阵,数值类型,需要设置threshold阈值

import numpy as np
cat_data =np.array([[1,2],
                   [3,4]])
binarizer =Binarizer(threshold=2.1) 
binarizer.transform(cat_data)

 

下面是pandas的dummy variable

import pandas as pd

data_dummy=pd.get_dummies(data)

### 类型转换与分类实现概述 类型转换是指将一种数据类型的值转换为另一种数据类型的值的过程。这种操作在编程语言中非常常见,尤其是在不同层次的数据交互场景下。以下是几种常见的类型转换方法以及分类实现的方式。 #### Apache Commons BeanUtils 的 `copyProperties` 方法 在 Java 中,`Apache Commons BeanUtils` 提供了一个便捷的方法——`copyProperties` 来完成对象间的属性复制[^1]。该方法不仅能够简单地复制相同类型的字段,还支持基于内置规则的类型转换。例如,在源对象和目标对象之间存在字段类型差异的情况下,`BeanUtils` 会自动尝试通过构造函数或其他预设方式完成转换。如果默认规则不足以满足需求,则可以通过注册自定义转换器来扩展其功能。 ```java import org.apache.commons.beanutils.BeanUtils; public class Example { public static void main(String[] args) throws Exception { SourceObject source = new SourceObject(); TargetObject target = new TargetObject(); // 使用 copyProperties 进行属性拷贝并执行必要的类型转换 BeanUtils.copyProperties(target, source); } } ``` #### 数据编码中的类别型数据转换 对于机器学习领域而言,类别型数据通常需要经过某种形式的编码才能被算法接受。这一过程涉及将非数值化的标签映射到整数或者浮点数上[^2]。具体来说: - **Label Encoding**: 将每个唯一类别的字符串表示替换为其索引位置对应的整数值。 - **One-Hot Encoding**: 创建额外列以反映原始特征的不同取值情况;每种可能状态对应单独的一位标志位。 这种方法适用于 Python 和其他主流开发环境下的数据分析工作流之中。 #### R语言中的因子变量创建 R 是统计计算的强大工具之一,其中“因子”是用来存储定序或名义尺度上的离散数据结构。为了便于后续建模分析,我们经常要把普通的字符向量转变为因子类型[^3]。下面展示了一段简单的脚本用于说明此目的: ```r # 加载样本数据框 df <- data.frame(var1=c('A','B'), var2=c(10,20), stringsAsFactors=FALSE) # 转化指定列为因素 df$var1 <- factor(df$var1) summary(df) ``` 上述代码片段展示了如何利用基础语法把某一列设定成具有有限水平集合的因素形式。 #### 基础数据类型间相互转变实例 (Java char -> int) 考虑到计算机内部一切信息最终都表现为比特串的事实,因此低级抽象层面的各种基本单元本质上都是相通互联的整体部分。比如,在 Java 编程体系里头,由于 Unicode 字符实际上是由固定长度序列构成的缘故,所以可以直接将其视作无符号短整形看待,并轻松地投射至更高精度范围内去参与运算活动当中[^4]。 ```java char c = 'a'; int i = (int)c; System.out.println(i); // 输出97 ``` ---
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值