LabelEncoder save 离线使用

最新推荐文章于 2025-03-06 17:16:58 发布

djph26741

最新推荐文章于 2025-03-06 17:16:58 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

文章标签： python 人工智能

原文链接：http://www.cnblogs.com/bonelee/p/10861506.html

本文介绍了一种使用pickle模块保存和加载sklearn.preprocessing.LabelEncoder的方法，以便在训练和测试阶段保持数据的一致性。首先，通过fit_transform()函数对训练集的特定列进行编码，并将编码器对象保存为.pkl文件。在测试阶段，可以加载这个.pkl文件，并直接应用transform()函数对测试集的相应列进行编码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

For me the easiest way was exporting LabelEncoder as .pkl file for each column. You have to export the encoder for each column after using the fit_transform() function

For example

from sklearn.preprocessing import LabelEncoder
import pickle
import pandas as pd
df_train = pd.read_csv('traing_data.csv')
le = LabelEncoder()    
df_train['Departure'] = le.fit_transform(df_train['Departure'])
#exporting the departure encoder
output = open('Departure_encoder.pkl', 'wb')
pickle.dump(le, output)
output.close()

Then in the testing project, you can load the LabelEncoder object and apply transform() function directly

from sklearn.preprocessing import LabelEncoder
import pandas as pd
df_test = pd.read_csv('testing_data.csv')
#load the encoder file
import pickle 
pkl_file = open('Departure_encoder.pkl', 'rb')
le_departure = pickle.load(pkl_file) 
pkl_file.close()
df_test['Departure'] = le_departure.transform(df_test['Departure'])

转载于:https://www.cnblogs.com/bonelee/p/10861506.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

djph26741

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

AI原生应用领域反馈循环：提升竞争力的关键因素

AGI×大数据，开启智能时代的认知跃迁；解码AGI，赋能数据驱动的智能革命。

04-27

341

本文旨在帮助技术从业者、产品经理及企业决策者理解：为什么反馈循环是AI原生应用的"心脏"？它如何通过数据与模型的持续迭代，让应用具备"越用越聪明"的能力？我们将覆盖反馈循环的底层逻辑、技术实现、实际应用场景，并给出可落地的实践建议。本文将从生活中的"反馈"现象切入，逐步拆解AI原生应用反馈循环的核心要素；通过技术原理解读+代码示例+真实案例，展示反馈循环的运作机制；最后探讨其在不同领域的应用及未来趋势。AI原生应用。

一行代码encoder编码/内存优化/模型调用保存

weixin_44626528的博客

03-09

239

快速一行代码编码

参与评论您还未登录，请先登录后发表或查看评论

python的LabelEncoder

帅帅de三叔

10-16

1万+

python的LabelEncoder使用方法

sklearn的LabelEncoder 遇到新值的解决办法

u012067933的专栏

04-12

587

sklearn的LabelEncoder函数，在fit结束后，对dataframe数据进行transform的时候，如果遇到了没在fit时编码规则里的新值，会出现代码报错

【机器学习技巧】如何快速对离散型数据进行编码: LabelEncoder的使用方法

阿旭的博客

11-09

2789

【机器学习技巧】如何快速对离散型数据进行编码: LabelEncoder的使用方法

Sklearn学习笔记7 Preprocessing

edwinhaha的博客

05-28

597

文章目录

机器学习笔记：如何用MLflow管理模型生命周期

shendeyidishui的博客

04-06

1620

1MLflow介绍MLflow是一个解决机器学习生命周期管理的平台，在上面对模型进行跟踪、重现、管理和部署。MLFlow解决了如下几个问题：1、算法训练实验难于追踪，所以我们需要有一个实...

人工智能学习记录--Auto ML

m0_69435612的博客

11-07

910

AutoML（自动化机器学习）是一种技术方法，旨在将机器学习的流程自动化，包括特征工程、模型选择、超参数优化等步骤。它通过简化机器学习过程，使得非专业人员或数据科学团队能更快、更便捷地构建并优化机器学习模型，特别适合于模型快速部署和大规模应用。

在线量化工具总结与实战（mqbench） -- 学习记录

最新发布

点云算法工程师

03-06

1354

运行以下指令，运行过程及对应进程号显示在l0gs文件夹下，运行结束可査看到 ptq mse 精度以及 qat fixed 精度。运行以下指令，运行过程及对应进程号显示在l0gs文件夹下，运行结束可査看到fp32模型 fintune 精度。基于mqbench，实现对 mobilenet-v2 网络的 QAT 和 TensorRT 部署的全流程演示。注:下图左边为原始json示意图，右边为去除后的ison示意图，具体数字差异请忽视。步骤5，往往就是QAT量化的精度损失所在，也是算法的可以改进的地方。

【数据集成深度学习】：处理大规模数据集的深度学习策略

[【数据集成深度学习】：处理大规模数据集的深度学习策略](https://ask.qcloudimg.com/http-save/yehe-1386409/267856e479cf2bcb2d368e0768caade4.png) # 1. 深度学习与数据集处理概述深度学习作为一种强大的机器...

python sklearn preprocessing LabelEncoder 标签编码

small__roc的博客

02-11

1457

加载库 import numpy as np from sklearn.preprocessing import LabelEncoder 小案例 labels = ['小米','小明','小红','大伟','小兰','小红'] # 原始标签列表 labels = sorted(set(labels)) # 标签编码排序，不是按照 labels 中每个词的频次。而是按照 sorted(set(labels))进行的排序。 lb = LabelEncode

sklearn与tensorflow模型+encoder保存和加载使用(以 dataframe data sklearn LinearRegression和tensorflow LSTM为例）

m0_46716894的博客

04-09

655

在我们花了很大的功夫训练完很多数据之后，我们希望把我们的模型存储起来，之后需要用到的时候，就可以得到结果。而这个过程主要涉及两个问题：（1）模型的保存（2）使用的时候的数据处理我们需要保证数据在进入模型的时候，经过了相同的处理过程，有相同的结构。本篇文章主要以sklearn LinearRegression model + LabelEncoder，还有tensorflow LSTM+ pipeline 为例。其他的模型不清楚是不是一样，可以找找其他文章看看。

Udacity深度学习之保存和读取tensorflow模型

不负如来不负卿

11-27

710

保存和读取 TensorFlow 模型保存变量加载变量训练一个模型并保存它的权重加载训练好的模型训练一个模型的时间很长。但是你一旦关闭了 TensorFlow session，你所有训练的权重和偏置项都丢失了。如果你计划在之后重新使用这个模型，你需要重新训练！幸运的是，TensorFlow 可以让你通过一个叫 tf.train.Saver 的类把你的进程保存下来。这个类可以把任何 tf.Var...

深度学习入门-mnist数据集

weixin_45720751的博客

10-03

1785

深度学习入门-基于python的理论与实现 3.6.1 MNIST数据集我使用的是pyhcharm 可以直接通过setting里Install tensorflow模块导入mniset数据集 tensorflow是一个采用数据流图（data flow graphs），用于数值计算的开源软件库 MNIST是一个入门级的计算机视觉数据集，它包含各种手写数字图片数据集被分成两部分：60000行的训练数据集（mnist.train）和10000行的测试数据集（mnist.test）。每一个MNIST数据单元有

preprocessing.LabelEncoder()使用

QAQwhq的博客

02-04

3738

preprocessing.LabelEncoder()使用 e.g. 1： from sklearn import preprocessing le = preprocessing.LabelEncoder() arr_gf = [1,2,3,'wom','wom','中文','中文'] le.fit(arr_gf) one_hot_gf = le.transform(arr_gf) print(one_hot_gf) 输出：[0 1 2 3 3 4 4] e.g. 2: csv_path = './

LabelEncoder 的使用

热门推荐

李威威的博客

10-09

4万+

这个类的作用官方文档给出了最简洁的解释。 Encode labels with value between 0 and n_classes-1. 即将离散型的数据转换成 000 到 n−1n-1n−1 之间的数，这里 nnn 是给出的一个集合的不同取值的个数（可以认为是某个特征的所有不同取值的个数）。我用在什么地方： Kaggle 的泰坦尼克号幸存者预测中，Embarked 这一列的编码： ...

Python之sklearn：LabelEncoder函数简介(编码与编码还原)、使用方法、具体案例(在数据缺失和test数据内存在新值(train数据未出现过)环境下的数据LE化)之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

10-31

2万+

Python之sklearn：LabelEncoder函数简介(编码与编码还原)、使用方法、具体案例之详细攻略目录 LabelEncoder函数的简介(编码与编码还原) LabelEncoder函数的使用方法 LabelEncoder函数的具体案例 1、在数据缺失和test数据内存在新值(train数据未出现过)环境下的数据LabelEncoder化 LabelEncoder函数的简介(编码与编码还原) class LabelEncoder Found at: sklearn

python 数据处理中的 LabelEncoder 和 OneHotEncoder

u012560212的博客

11-30

3万+

#简单来说 LabelEncoder 是对不连续的数字或者文本进行编号 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() le.fit([1,5,67,100]) le.transform([1,1,100,67,5]) 输出： array([0,0,3,2,1]) #OneHotEncoder

机器学习：sklearn训练结果的保存和加载

彭世瑜的博客

01-25

4086

API sklearn.externals.joblib 代码示例 from sklearn.datasets import load_boston from sklearn.externals import joblib from sklearn.model_selection import train_test_split from sklearn.preprocessing import ...

transformer离线使用

12-25

要离线使用Transformer模型，一般涉及以下几个步骤： 1. **下载模型**：首先，从预训练库（如Hugging Face的Hub或TensorFlow Hub）下载已经训练好的Transformer模型，例如BERT、GPT系列等。例如，在Hugging Face的...