Tensorflow与NLP数据集探索-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_38745403/article/details/93231841

这篇博客介绍了Tensorflow的基础知识，包括安装和主要知识点，如常量、变量和placeholder。接着，博主探讨了IMDB数据集的下载和初步探索，以及HUCNews数据集的获取和预处理步骤。最后预告将学习模型评估的相关指标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

nlp的基础知识学习

1.tensorflow 基础知识
- 1.1 tensorflow的安装
- 1.2 tensorflow的知识点
2. IMDB数据集下载和探索
- 2.1下载IMDB数据集
- 2.2 IMDB数据探索
3.HUCNews数据集下载和探索
4、模型评估

1.tensorflow 基础知识

1.1 tensorflow的安装

由于我的电脑不支持gpu加速，所以安装的是cpu 版本，使用pip install tensorflow的命令

1.2 tensorflow的知识点

创建常量及变量

import tensorflow as tf
# 创建常量
data1 = tf.constant(2, dtype=tf.int32)
# 创建变量
data2 = tf.Variable(10, name='var')

tensorflow本质
在这里插入图片描述将numpy转化为tensor的格式

a = np.zeros((3, 3))
ta = tf.convert_to_tensor(a)
with tf.Session() as sess:
    print(sess.run(ta))

placeholder（先占位再传数）
tensorflow中又一保存数据的利器，placeholder（type,strucuct…)它的第一个参数是你要保存的数据的数据类型，大多数是tensorflow中的float32数据类型，后面的参数就是要保存数据的结构，比如要保存一个1×2的矩阵，则struct=[1 2]。它在使用的时候和前面的variable不同的是在session运行阶段，需要给placeholder提供数据，利用feed_dict的字典结构给placeholdr变量“喂数据”，具体使用如下：

import tensorflow as tf
data1 = tf.placeholder(tf.float32)
data2 = tf.placeholder(tf.float32)
dataAdd = tf.add(data1, data2)
with tf.Session() as sess:
    print(sess.run(dataAdd, feed_dict={data1: 6, data2: 2}))##把6赋给data1，2赋给data2
print('end')
输出：8

2. IMDB数据集下载和探索

2.1下载IMDB数据集

import tensorflow as tf
from tensorflow import keras
imdb = keras.datasets.imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data('*****/imdb.npz',num_words=15000)
print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels)))

2.2 IMDB数据探索

下次学习数据预处理以及模型学习

3.HUCNews数据集下载和探索

3.1 数据集下载

参考：THUCNews数据子集：https://pan.baidu.com/s/1hugrfRu 密码：qfud

3.2 数据预处理

index转成文本

import pandas as pd
#数据读取
train_data=pd.read_csv(r'D:\dataset\cnews\cnews.train.txt',sep='\t',names=['label','content'])
test_data=pd.read_csv(r'D:\dataset\cnews\cnews.test.txt',sep='\t',names=['content'])
#print(train_data.head())
#将原数据集中label转换为数字
def read_category(d_train):
    '''将原数据集中label转换为数字'''
    #将类别标签组成列表
    categories = ['体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐']
    change_to_id = dict(zip(categories, range(len(categories))))#采用字典的方式进行装换
    print(change_to_id)
    label_id = []
    for i in range(len(d_train)):
        label_id.append(change_to_id[d_train[i]])
    return label_id
train_target = train_data['label']
print(read_category(train_target))