【深度学习】将文本数据转换为张量的方法总结

目录

问题描述:

方法概括:

1.单词级的one-hot编码

2.字符级的one-hot编码

3.用keras实现单词级的one-hot编码

4.用散列技巧的单词级的one-hot1编码

参考:


问题描述:

        深度学习模型不会接收原始文本作为输入,它只能处理数值张量。 文本向量化(vectorize)是指将文本转换为数值张量的过程。实现方法:①文本中的每个单词转换为一个向量.②文本中的每个字符转换为一个向量。

方法概括:

1.单词级的one-hot编码

代码展示

import numpy as np

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

#构建数据中被标记的索引
token_index = {}
for sample in samples:
    #利用split方法进行分词
    for word in sample.split():
        if word not in token_index:
            # 为唯一单词指定唯一索引
            token_index[word] = len(token_index) + 1


max_length = 10

#结果保存在result中
results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值