深入理解TensorFlow中Embedding和One-Hot的区别

最新推荐文章于 2025-04-25 16:53:41 发布

DkVhdl

最新推荐文章于 2025-04-25 16:53:41 发布

阅读量257

点赞数

CC 4.0 BY-SA版权

文章标签： tensorflow embedding 人工智能机器学习-深度学习

本文链接：https://blog.youkuaiyun.com/DkVhdl/article/details/133259140

机器学习-深度学习专栏收录该内容

132 篇文章 ¥59.90 ¥99.00

订阅专栏

本文详细对比了TensorFlow中Embedding和One-Hot编码的区别，包括编码方式、维度表示、语义关系、存储效率和可学习性。在处理离散类别特征时，Embedding能捕捉类别间的关系，适合大规模类别；而One-Hot编码简单但存储空间大，适用于少量类别。

在TensorFlow中，Embedding和One-Hot是两种常用的向量表示方法，用于将离散的符号或类别转换为密集的实值向量。它们在自然语言处理（NLP）等领域中广泛应用。本文将详细介绍Embedding和One-Hot的区别，并提供相应的源代码示例。

One-Hot编码

One-Hot编码是一种将离散的类别特征表示为稀疏向量的方法。它将每个类别映射到一个唯一的整数索引，并创建一个向量，其中只有索引对应的位置为1，其余位置都为0。这种编码方法的优点是简单明了，易于理解和实现。下面是一个使用TensorFlow实现One-Hot编码的示例：

import tensorflow as tf

# 定义类别标签
labels = [0, 1, 2

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DkVhdl

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

TensorFlow中Embedding和One-Hot的区别及应用

YOLOv3333的博客

09-19

200

One-Hot编码生成的向量是稀疏的，维度较高，适用于离散度高的特征；Embedding生成的向量是稠密的，维度较小，适用于连续性较强的特征。在实际应用中，根据特征的不同特点选择合适的转换方式，以提高模型的性能与效果。这种向量化的表示能够在保留特征之间的相关性的同时，减少了高维度特征的冗余性。One-Hot编码产生的向量是稀疏的，大部分元素为零，只有一个元素为1；One-Hot编码生成的向量维度是特征取值个数的大小，而Embedding生成的向量维度是自定义的，较小且固定。函数来实现One-Hot编码。

NLP - 词的表示：Bow,One-hot, TF-IDF、word2vec

AI工程化、开源分享、文档翻译、代码笔记

01-02

1154

文章目录词的表示潜在语义分析方法（BOW）Countervector 计数TF-IDFBOW 和 TF-IDF 方法的问题词的独热（One-hot ）表示独热问题的改进解决维度过大的问题解决无语义的问题 -- 词的分布式表示Word Embedding 词嵌入使用场景Word embedding的训练方法1、无监督或弱监督的预训练2、端对端（end to end）的有监督训练。参考资料参考转载自： https://www.jianshu.com/p/cede3ae146bb 词的表示潜在语义分析方法

参与评论您还未登录，请先登录后发表或查看评论

PyTorch 稀疏函数解析：embedding 、one_hot详解

CDBmax的博客

01-17

2537

本篇博客探讨了 PyTorch 框架中几个关键的稀疏函数，包括embedding和one_hot。这些函数在处理自然语言处理（NLP）任务和其他需要高效、灵活处理大量类别或序列数据的应用中至关重要。embedding函数用于从预定义的嵌入矩阵中检索指定索引的嵌入向量，支持自定义嵌入矩阵大小、填充索引和范数限制。提供了一种高效的方法来处理变长序列，通过聚合（如求和、均值或最大值）嵌入向量，而无需单独处理每个序列。one_hot。

一文搞懂one-hot和embedding

热门推荐

Alex的博客

03-02

4万+

在 NLP领域，word embedding 已经成为了众所周知的技术。在现实生活中 word embedding 已经拥有非常广泛的应用：语音助手、机器翻译、情感分析… 因为 word embedding 的特殊性，它几乎覆盖了所有 NLP 的应用。接下来说说传统的 one-hot 编码开始，阐述其优劣，并延伸至 word embedding 技术和其优点人类可以很轻易地理解一个单词、词组或者字母，比如「LOVE」，但机器是理解不了的。想要让机器理解单词，就必须要把它变成一串数字（向量）。下面介绍.

大语言模型中one-hot编码和embedding之间的区别？

IT荻的博客

02-16

971

例如，词汇表有10,000个词，每个词对应一个10,000维的向量，其中仅有一个位置为1（表示当前词），其余为0。参数可控：嵌入矩阵尺寸为V × D（D为嵌入维度，通常D=300），参数量远小于One-Hot方案。上下文感知：在Transformer等模型中，Embedding可结合位置编码，动态适应不同上下文（如“苹果”在“水果”和“公司”中的不同含义）。参数爆炸：若词汇表大小为V，模型输入层到第一隐藏层的权重矩阵尺寸为V × H（H为隐藏层大小），当V=10^5时，参数数量极大。

TensorFlow2中Embedding层的使用(tf.keras.layers.Embedding)

鹏啊鹏

04-10

7077

文章目录1 简介参数2 示例一2.1数据准备2.2 模型搭建与测试2.3 查看结果3 示例二 1 简介嵌入层将正整数（下标）转换为具有固定大小的向量，如==[[4],[20]]->[[0.25,0.1],[0.6,-0.2]]== Embedding层只能作为模型的第一层 tf.keras.layers.Embedding( input_dim, output_dim, embeddings_initializer='uniform', embeddings_regu

Tensorflow Embedding层

weixin_42272768的博客

01-25

4076

Tensorflow的Embedding层实际功能就是完成从一个数组到另外一个数组的映射。比如数组x=[0,2,1,0,1,0]，经过下面的Embedding层后，得到的输出为： import tensorflow as tf x = [0,1,1.2,0.4,1,0,2] model = tf.keras.Sequential() model.add(tf.keras.layers.Embedding(3, 2, input_length=7))#输入维，输出维 model.compile('rmspro

one-hot和Embedding

m0_67084346的博客

12-01

1066

one-hot和Embedding，embedding代码

Tensorflow 之 embedding（一）

jack_jmsking的专栏

09-06

2万+

Tensorflow 之 embedding（一）目录 1. embedding的含义 2. tensorflow中embedding实现流程 3. embbeding中如何进行查表 4. 如何训练得到embedding表一、embedding的含义说一个常见的应用，例如在机器翻译应用中，当我输入中文 “我这是在干嘛了？”，然后需要将其翻译成英文，首先第一步你得需要让计算机知道...

自然语言处理从小白到大白系列（2）word Embedding从one-hot到word2vec

ibelieve8013的博客

10-11

1467

我们知道，对于我们的计算机来说，没有办法像人一样理解自然语言，在人工智能领域，这还有很长一段路要走，就算要直接处理自然语言，都很困难。因此，人们想办法把自然语言用数字的方式表示，便于计算和分析，这就是为什么要做词嵌入：word embedding。本文将从以下的方面讲述word embedding：one-hot, word2vec, glove, fast-text.

One-Hot编码

Rhett_Butler0922的博客

04-25

815

One-Hot编码是处理分类变量的基础技术，PyTorch通过F.one_hot和torch.eye提供了高效实现。在深度学习中，One-Hot编码常用于标签处理，但对于高维特征，嵌入层（如）是更好的选择。

embedding层_tensorflow中的Embedding操作详解

weixin_39835321的博客

11-30

2962

Tensorflow Embedding

qwexdl的博客

03-28

1336

一、随机初始化Embedding 1.1 原理 Embedding其实就是个lookup table, 通过tf.nn.embedding_lookup()来调用Embedding. 注意：在调用Embedding后，可以考虑使用dropout层。注意：在Embedding内，可以考虑对提取的vector做缩放。见于《Attention is all you need》 1.2 示例代码这是关于Embedding层的相关代码。 def embedding(inputs, vocab_size, num_

Tensorflow2.0学习（20）：Embedding——RNN

一枚小白的博客

03-03

1403

RNN 简单. 复杂. 实战简单的单向RNN # 将每个词变成长度为16的embedding向量 embedding_dim = 16 batch_size = 128 model = keras.models.Sequential([ # keras.layers.Embedding要做的几件事： # 1.定义矩阵：[vocab_size, embedding_dim...

如何进行word embedding（tensorflow实现）

comli_cn的博客

01-29

2739

1. 什么是word embedding （1）从word到num 我们的自然语言，不管是中文还是英文都不能直接在机器中表达，此时就要将自然语言映射为数字。要映射成数字就要有字典，所以一般会先构建词典，举例如下： word_dict = {"我":0, "你":1, "他":2, "她":3, "是":4, "好":5, "坏":6, "人":7, "天":8, "第":9, "气":10, "今":11, "怎":12, "么":13, "样":14,

TensorFlow学习笔记——（12）Embedding编码方法

屿十_

08-18

2561

一、Embedding编码 1、概念在前面的例子中，都采用了独热码的编码方式，独热码的位宽要与词汇量一致，如果词汇量增大时，非常浪费资源，因此自然语言处理中，有专门一个方向在研究单词的编码。 2、TF描述词汇表大小：编码一共要表示多少个单词编码维度：用几个数字表示一个单词 Embedding对于输入特征的维度也有要求： 3、实例代码（1）一个字母预测 import numpy as np import tensorflow as tf from tensorflow.keras.layers

tensorflow篇——embedding代码实现

Time_traveler233的博客

07-03

1698

离散特征常见做法是将其转换为one-hot，但对于itemid这种离散特征，转换成one-hot之后维度非常高，但里面只有一个是1，其余都为0。这种情况下，我们的通常做法就是将其转换为embedding。 1.一个离散特征有一个取值，one-hot的时候，有一个地方为1。用embedding_lookup函数来实现emedding。 # embedding用tf.nn.embedding_lookup import tensorflow as tf embedding = tf.constant(

[TensorFlow深度学习深入]实战一·使用embedding_lookup模块对Word2Vec训练保存与简单使用

简明AI工作室

12-12

3505

[TensorFlow深度学习深入]实战一·使用embedding_lookup模块对Word2Vec训练保存与简单使用 Word2Vec简介 One hot representation用来表示词向量非常简单，但是却有很多问题。最大的问题是我们的词汇表一般都非常大，比如达到百万级别，这样每个词都用百万维的向量来表示简直是内存的灾难。这样的向量其实除了一个位置是1，其余的位置全部都是0，表达的...

one-hot-embedding是什么意思？

最新发布

12-04