17、文本数据处理：从独热编码到词嵌入

最新推荐文章于 2025-11-22 03:49:59 发布

电竞养老选手

最新推荐文章于 2025-11-22 03:49:59 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习实战指南文章标签：文本处理独热编码词嵌入

本文链接：https://blog.youkuaiyun.com/tensor9flow/article/details/154591592

深度学习实战指南专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本数据处理：从独热编码到词嵌入

1. 独热编码

1.1 词和字符的独热编码

独热编码是将标记转换为向量的最常见、最基本的方法。它的原理是为每个单词关联一个唯一的整数索引，然后将这个整数索引 i 转换为大小为 N （词汇表大小）的二进制向量，除了第 i 个元素为 1 外，其余元素均为 0。

以下是词级别的独热编码的示例代码：

import numpy as np
samples = ['The cat sat on the mat.', 'The dog ate my homework.']
token_index = {}
for sample in samples:
    for word in sample.split():
        if word not in token_index:
            token_index[word] = len(token_index) + 1
max_length = 10
results = np.zeros(shape=(len(samples),
                          max_length,
                          max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]: