nlp学习1

这篇博客介绍了Tensorflow的基础知识,包括安装和主要知识点,如常量、变量和placeholder。接着,博主探讨了IMDB数据集的下载和初步探索,以及HUCNews数据集的获取和预处理步骤。最后预告将学习模型评估的相关指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.tensorflow 基础知识

1.1 tensorflow的安装

由于我的电脑不支持gpu加速,所以安装的是cpu 版本,使用pip install tensorflow的命令

1.2 tensorflow的知识点

创建常量及变量

import tensorflow as tf
# 创建常量
data1 = tf.constant(2, dtype=tf.int32)
# 创建变量
data2 = tf.Variable(10, name='var')

tensorflow本质
在这里插入图片描述将numpy转化为tensor的格式

a = np.zeros((3, 3))
ta = tf.convert_to_tensor(a)
with tf.Session() as sess:
    print(sess.run(ta))

placeholder(先占位再传数)
tensorflow中又一保存数据的利器,placeholder(type,strucuct…)它的第一个参数是你要保存的数据的数据类型,大多数是tensorflow中的float32数据类型,后面的参数就是要保存数据的结构,比如要保存一个1×2的矩阵,则struct=[1 2]。它在使用的时候和前面的variable不同的是在session运行阶段,需要给placeholder提供数据,利用feed_dict的字典结构给placeholdr变量“喂数据”,具体使用如下:

import tensorflow as tf
data1 = tf.placeholder(tf.float32)
data2 = tf.placeholder(tf.float32)
dataAdd = tf.add(data1, data2)
with tf.Session() as sess:
    print(sess.run(dataAdd, feed_dict={data1: 6, data2: 2}))##把6赋给data1,2赋给data2
print('end')
输出:8

2. IMDB数据集下载和探索

2.1下载IMDB数据集

import tensorflow as tf
from tensorflow import keras
imdb = keras.datasets.imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data('*****/imdb.npz',num_words=15000)
print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels))) 

2.2 IMDB数据探索

下次学习数据预处理以及模型学习

3.HUCNews数据集下载和探索

3.1 数据集下载

参考:THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud

3.2 数据预处理

index转成文本

import pandas as pd
#数据读取
train_data=pd.read_csv(r'D:\dataset\cnews\cnews.train.txt',sep='\t',names=['label','content'])
test_data=pd.read_csv(r'D:\dataset\cnews\cnews.test.txt',sep='\t',names=['content'])
#print(train_data.head())
#将原数据集中label转换为数字
def read_category(d_train):
    '''将原数据集中label转换为数字'''
    #将类别标签组成列表
    categories = ['体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐']
    change_to_id = dict(zip(categories, range(len(categories))))#采用字典的方式进行装换
    print(change_to_id)
    label_id = []
    for i in range(len(d_train)):
        label_id.append(change_to_id[d_train[i]])
    return label_id
train_target = train_data['label']
print(read_category(train_target))

3.3 数据探索

下次学习数据预处理以及模型学习

4、模型评估

学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

参考:https://www.imooc.com/article/48072

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值