TensorFLow one-hot

本文深入讲解文本分析中常用的两种编码方法:整数编码与One-Hot编码。整数编码简单直接,但存在数值误导问题;One-Hot编码则能准确表示词汇间的独立性,避免距离偏差,是深度学习中广泛采用的文本预处理手段。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主要用于文本分析
“I love you”

整数编码

深度学习的输入都要转换为数字,这里我们可以把"I"映射为0,"love"映射为1,"you"映射为2,这样
"I love you"既可以编码为[0,1,2]

One-Hot编码

整数编码不好的地方是1,2,3之间默认有距离,比如"you"距离"I"为2,距离"love"为1,而现实他们都是独立的,就是相互的距离应该都是1,所以就需要One hot编码了.
将"I"映射为[1,0,0],"love"映射为[0,1,0],"you"映射为[0,0,1],这样
"I love you"可以编码为
[[1,0,0],
[0,1,0],
[0,0,1]]

参考:
大神手把手教你:(Python)序列数据的One Hot编码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值