12、深度学习中的数据表示与学习机制

onion

于 2025-07-23 13:55:04 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch深度学习实战文章标签：深度学习数据表示文本嵌入

本文链接：https://blog.youkuaiyun.com/onion/article/details/151034105

PyTorch深度学习实战专栏收录该内容

51 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习中的数据表示与学习机制

1. 文本数据的表示方法

在处理文本数据时，我们常常需要将其转换为神经网络能够处理的形式。这里主要介绍了独热编码（One-hot encoding）和文本嵌入（Text embeddings）两种方法。

1.1 单词的独热编码

独热编码是一种将文本转换为向量的常用方法。以下是具体的操作步骤：
- 数据预处理 ：定义一个函数 clean_words 对输入的文本进行处理，将其转换为小写并去除标点符号。

def clean_words(input_str):
    punctuation = '.,;:"!?”“_-'
    word_list = input_str.lower().replace('\n',' ').split()
    word_list = [word.strip(punctuation) for word in word_list]
    return word_list

构建单词索引映射 ：对处理后的文本中的单词进行排序并去重，构建一个单词到索引的字典 word2index_dict 。

word_list = sorted(set(clean_words(text)))
word2index_dict = {word: i for (i, w

会员秒杀 ¥9.9 重磅福利

超级会员免费看