12、深度学习中的数据表示与学习机制

深度学习中的数据表示与学习机制

1. 文本数据的表示方法

在处理文本数据时,我们常常需要将其转换为神经网络能够处理的形式。这里主要介绍了独热编码(One-hot encoding)和文本嵌入(Text embeddings)两种方法。

1.1 单词的独热编码

独热编码是一种将文本转换为向量的常用方法。以下是具体的操作步骤:
- 数据预处理 :定义一个函数 clean_words 对输入的文本进行处理,将其转换为小写并去除标点符号。

def clean_words(input_str):
    punctuation = '.,;:"!?”“_-'
    word_list = input_str.lower().replace('\n',' ').split()
    word_list = [word.strip(punctuation) for word in word_list]
    return word_list
  • 构建单词索引映射 :对处理后的文本中的单词进行排序并去重,构建一个单词到索引的字典 word2index_dict
word_list = sorted(set(clean_words(text)))
word2index_dict = {word: i for (i, w
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值