One-hot Encoding 构造特征

最新推荐文章于 2025-09-08 21:21:23 发布

转载最新推荐文章于 2025-09-08 21:21:23 发布 · 101 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/lvyi/blog/779202

文章标签：

#人工智能

为什么80%的码农都做不了架构师？>>>

在看「XGBoost: A Scalable Tree Boosting System」论文时，里面提到 one-ho encoding 方法，其实就是常说的 bit-map。

There are multiple possible causes for sparsity: 1) presence of missing values in the data; 2) frequent zero entries in the statistics; and, 3) artifacts of feature engineering such as one-hot encoding.

有如下属性：

性别：["男", "女"]
喜欢的游戏： ["LOL", "Dota", "仙剑"]
职业：["程序员", "产品", "设计师"]

那么属性为男（[1, 0]），喜欢 LOL（[1, 0, 0]），程序员（[1, 0, 0]）的人，特征向量表示为：

1 0 1 0 0 1 0 0

sklean 示例

from sklearn import preprocessing

enc = preprocessing.OneHotEncoder()
enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])

array = enc.transform([[0,1,3]]).toarray()

print array

第 1 维 第 2 维  第 3 维
[0,    0,    3]
[1,    1,    0]
[0,    2,    1]
[1,    0,    2]

enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]]) 表示了三维特征，第一维最大为 1，第二维最大为 2，第一三维最大为 3，所以分别用二位，三位，四位 bit 来表示。

打印结果

[[ 1. 0. 0. 1. 0. 0. 0. 0. 1.]]

参考

http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

转载于:https://my.oschina.net/lvyi/blog/779202

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33937499

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

R语言构建xgboost模型：特征因子化、独热编码（ one-hot encoding）、卡方检验判断预测变量与目标变量的相关性

statistics+insight+vista+power

03-05

252

R语言构建xgboost模型：特征因子化、独热编码（ one-hot encoding）、卡方检验判断预测变量与目标变量的相关性

第N1周：one-hot编码案例

lihuhelihu的博客

08-09

789

one-hot编码的基本思想是将每个类别映射到一个向量，其中只有一个元素的值为1，其余元素的值为0。○在文本表征表示上有些缺点非常突出，首先one-hot 编码是一个词袋模型，是不考虑词和词之间的顺序问题，它是假设词和词之间是相互独立的，但是在大部分情况下词和词之间是相互影响的。○one-hot编码得到的特征是离散稀疏的，每个单词的one-hot编码维度是整个词汇表的大小，维度非常巨大，编码稀疏，会使得计算代价变大。可以注意到上面的案例是以字为基本单位的，但词语被拆分开后，显然会失去原有的意思。

参与评论您还未登录，请先登录后发表或查看评论

大神手把手教你：(Python)序列数据的One Hot编码

AiFool的博客

09-02

9310

原文链接机器学习算法无法直接用于数据分类。数据分类必须转换为数字才能进一步进行。在本教程中，你将发现如何将输入或输出的序列数据转换为一种热编码，以便于你在Python中深度学习的序列分类问题中使用。看完本教程后，你将会了解：· 1.什么是整数编码和One-Hot编码，以及为什么它们在机器学习中是必需的。· 2.如何在Python中手工计算一个整数编码和One-Hot编码。· 3.如何使用

pytorch 构建one-hot向量

上帝是个娘们的博客

08-12

1505

pytorch使用scatter构建onehot向量，scatter不仅可以用来构建one-hot向量，也可以用来对矩阵进行修改。

文本特征提取——one-hot

weixin_51117061的博客

11-25

1866

独热编码即 One-Hot 编码，又称一位有效编码。其方法是使用 N位状态寄存器来对 N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。 One-Hot 编码是分类变量作为二进制向量的表示。(1) 将分类值映射到整数值。(2) 然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。是一种十分常用的类别处理手段，当特征是离散的，无序的，就可以通过one hot 进行特征数字化，比如一个特征有高、中、低三个值，通过独热编码，就可以分...

深度学习Day-35：One-hot独热编码

m0_51359915的博客

10-03

1153

本周任务较为简单，不做多余总结。

One-hot vs. Word2Vec

lawenliu的专栏

09-13

1773

训练模型的时候，有的时候使用的是One-hot，有的时候使用Word2Vec，这两个有什么区别的，什么时候使用One-hot，什么时候使用Word2Vec呢，谈一下自己的理解。 One-hot Encoding One-hot编码又被称为“一位有效编码”，采用N位对特征的N个状态或者候选值进行编码，每个候选值是否有效用0和1表示，任意时刻编码只有一位有效。举个简单的例子，如果要区分水果，假设水...

一文搞懂one-hot和embedding

热门推荐

Alex的博客

03-02

4万+

在 NLP领域，word embedding 已经成为了众所周知的技术。在现实生活中 word embedding 已经拥有非常广泛的应用：语音助手、机器翻译、情感分析… 因为 word embedding 的特殊性，它几乎覆盖了所有 NLP 的应用。接下来说说传统的 one-hot 编码开始，阐述其优劣，并延伸至 word embedding 技术和其优点人类可以很轻易地理解一个单词、词组或者字母，比如「LOVE」，但机器是理解不了的。想要让机器理解单词，就必须要把它变成一串数字（向量）。下面介绍.

回归模型中的离散型特征编码方式-----Dummy Coding对比One-hot encoding

xiaohutong1991的专栏

08-10

6085

一、哑变量定义哑变量（DummyVariable），也叫虚拟变量，引入哑变量的目的是，将不能够定量处理的变量量化，在线性回归分析中引入哑变量的目的是，可以考察定性因素对因变量的影响，它是人为虚设的变量，通常取值为0或1，来反映某个变量的不同属性。对于有n个分类属性的自变量，通常需要选取1个分类作为参照，因此可以产生n-1个哑变量。如职业、性别对收入的影响，战争、自然灾害对GDP的影响，季节对某些产品（如冷饮）销售的影响等等。这种“量化”通常是通过引入“哑变量”来完成的。根据这些因素的属性类型，构造只取“

阿里云Qwen3系列模型部署微调评测

wys的专栏

09-07

726

让算力成为公共服务：用大规模的通用计算，帮助客户做从前不能做的事情，做从前做不到的规模。让数据成为生产资料：用数据的实时在线，帮助客户以数据为中心改变生产生活方式创造新的价值。

torch神经网络入门级设备测试

m0_71002812的博客

09-07

898

本文介绍了一个基于PyTorch的CPU与GPU性能评估系统，用于比较不同硬件在求解常微分方程(ODE)的神经网络模型中的计算效率。系统包含以下核心功能：自动检测CUDA可用性及GPU配置构建多层前馈神经网络模型求解二阶ODE 性能基准测试：分别在CPU/GPU上运行相同训练任务，计算加速比内存使用分析：对比CPU/GPU张量的内存占用情况梯度计算专项测试：评估反向传播耗时差异评估结果显示，在处理大规模数据(≥5000个数据点)时，GPU凭借并行计算优势可获得显著加速效果。系统适用于科研人员优化物

AI驱动的软件测试：革命性的自动化、缺陷检测与实验优化

zzywxc787的博客

09-06

680

人工智能（AI）和机器学习（ML）技术的融入，正在从根本上重塑软件测试的格局，将其从一种主要是手动的、重复性的任务转变为一种智能的、预测性的、且持续优化的过程。*说明：多臂老虎机算法（MAB）由于将更多流量分配给了更好的版本B，其累积回报（点击次数）的增长速度远快于传统A/B测试（固定50/50分流）。：利用NLP技术（如文本分类）自动分析新提交的Bug报告的内容、标题和描述，将其自动分类（如“前端UI问题”、“后端API错误”），并推荐或分配给最合适的开发人员（基于谁修改了相关代码文件）。

[TKDE 2023] A Review on Deep Neural Networks for ICD Coding

Sherlily的博客

09-07

1068

计算机-人工智能-ICD编码机器学习深度学习综述

怎么快速构建一个deep search模型呢

qq_57565004的博客

09-05

894

本文提出了一种快速构建具备深度信息检索能力的智能体系统（DeepSearch）的方法。该方法采用分阶段开发策略：首先基于RAG架构搭建基础检索链路，再通过LangChain框架整合大语言模型和搜索引擎API，赋予系统自主规划与迭代搜索能力，最终实现多源信息整合和结构化报告生成。技术选型上强调利用开源工具（如LangChain、ChromaDB）和预训练模型，通过"思考-检索-整合-迭代"的智能体工作流，高效构建可验证原型的核心功能。

2025年09月03日最热门的开源项目(Github)

09-04

856

GPT系列--类GPT2源码剖析