DatawhaleChina -任务一 IMDB数据集+THUCNews数据集

预备任务

tensorflow 早已安装好,都有跑模型,莫烦先生的视频也都看了,基础知识有了解,都很OK。

IMDB数据集下载和探索

整体思路:

  • 特征
    特征就是 one-hot 形式,选取10000个频率在前的单词,然后对每一个文档处理成这10000维度的向量。
    文档里包含这个单词,向量中这个单词的索引位置就是1,否则就是0,总的样本空间就是 10000 * docNum。
  • 网络

代码部分:

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.datasets import imdb
import numpy as np
import matplotlib.pyplot as plt


### 将数据处理,利用one - hot 模型,把数据转换成数字

(train_data, train_labels), (test_data, test_labels) = keras.datasets.imdb.load_data(num_words=10000)


def vectorize_sequences(sequences, dimension=10000):
   
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.  # 索引results矩阵中的位置,赋值为1,全部都是从第0行0列开始的
    return results

# Our vectorized training data
x_train = vectorize_sequences(train_data)
# Our vectorized test data
x_test = vectorize_sequences(test_data)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值