numpy教程-优快云博客

本文链接：https://blog.youkuaiyun.com/EncodingLee/article/details/133955293

本文详细介绍了numpy教程中的数组定义、创建、类型判断、切片与拼接，以及使用sklearn进行数据普通编码的过程，包括LabelEncoder应用和自定义编码方法的性能对比。作者呼吁读者提供优化建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

numpy教程

第一章数组定义和分类
第二章数组操作
第三章数组应用
- 3.1 数据普通编码

第一章数组定义和分类

第二章数组操作

2.1 创建数组

2.2 数组类型

2.3 数组判断

2.4 数组切片

2.5 数组拼接

第三章数组应用

3.1 数据普通编码

1. 数据下载地址

https://archive.ics.uci.edu/static/public/73/mushroom.zip

2. 数据加载

import pandas as pd
f_path = r"../../datasets/mushroom/raw_data/agaricus-lepiota.data"
data = pd.read_csv(f_path, header=None)

3. 数据普通编码
1）使用sklearn进行普通编码

from sklearn.preprocessing import LabelEncoder

start = time.time()

le = LabelEncoder()
for column_name, column_data in data.items():
    le.fit(column_data)
    data.loc[:, column_name] = le.transform(column_data)

print(time.time() - start)

2）去掉校验后，sklearn内部代码

def _map_to_integer(values, uniques):
    """Map values based on its position in uniques."""
    table = {val: i for i, val in enumerate(uniques)}
    return np.array([table[v] for v in values])

start2 = time.time()

data = np.asarray(data)
for i in range(data.shape[1]):
    temp = data[:, i]
    classes = np.unique(temp)
    data[:, i] = _map_to_integer(temp, classes)
    
print(time.time() - start2)

3）模仿

start1 = time.time()

data = np.asarray(data)
for i in range(data.shape[1]):
    temp = data[:, i]
    classes = np.unique(data[:, i])
    for idx, j in enumerate(classes):
        temp[temp == j] = idx
    data[:, i] = temp

print(time.time() - start1)

4. 对比分析

调用sklearn编码时间：0.03752398490905762
仿写的时间: 0.06799888610839844
sklearn内部代码：0.06450891494750977

根据上述结果可以看出，自己的代码还有很大的优化空间，欢迎大家提供思路。

numpy教程

numpy教程

第一章 数组定义和分类

第二章 数组操作

2.1 创建数组

2.2 数组类型

2.3 数组判断

2.4 数组切片

2.5 数组拼接

第三章 数组应用

3.1 数据普通编码

第一章数组定义和分类

第二章数组操作

第三章数组应用