nlp的基础知识学习
1.tensorflow 基础知识
1.1 tensorflow的安装
由于我的电脑不支持gpu加速,所以安装的是cpu 版本,使用pip install tensorflow的命令
1.2 tensorflow的知识点
创建常量及变量
import tensorflow as tf
# 创建常量
data1 = tf.constant(2, dtype=tf.int32)
# 创建变量
data2 = tf.Variable(10, name='var')
tensorflow本质
将numpy转化为tensor的格式
a = np.zeros((3, 3))
ta = tf.convert_to_tensor(a)
with tf.Session() as sess:
print(sess.run(ta))
placeholder(先占位再传数)
tensorflow中又一保存数据的利器,placeholder(type,strucuct…)它的第一个参数是你要保存的数据的数据类型,大多数是tensorflow中的float32数据类型,后面的参数就是要保存数据的结构,比如要保存一个1×2的矩阵,则struct=[1 2]。它在使用的时候和前面的variable不同的是在session运行阶段,需要给placeholder提供数据,利用feed_dict的字典结构给placeholdr变量“喂数据”,具体使用如下:
import tensorflow as tf
data1 = tf.placeholder(tf.float32)
data2 = tf.placeholder(tf.float32)
dataAdd = tf.add(data1, data2)
with tf.Session() as sess:
print(sess.run(dataAdd, feed_dict={data1: 6, data2: 2}))##把6赋给data1,2赋给data2
print('end')
输出:8
2. IMDB数据集下载和探索
2.1下载IMDB数据集
import tensorflow as tf
from tensorflow import keras
imdb = keras.datasets.imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data('*****/imdb.npz',num_words=15000)
print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels)))
2.2 IMDB数据探索
下次学习数据预处理以及模型学习
3.HUCNews数据集下载和探索
3.1 数据集下载
参考:THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud
3.2 数据预处理
index转成文本
import pandas as pd
#数据读取
train_data=pd.read_csv(r'D:\dataset\cnews\cnews.train.txt',sep='\t',names=['label','content'])
test_data=pd.read_csv(r'D:\dataset\cnews\cnews.test.txt',sep='\t',names=['content'])
#print(train_data.head())
#将原数据集中label转换为数字
def read_category(d_train):
'''将原数据集中label转换为数字'''
#将类别标签组成列表
categories = ['体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐']
change_to_id = dict(zip(categories, range(len(categories))))#采用字典的方式进行装换
print(change_to_id)
label_id = []
for i in range(len(d_train)):
label_id.append(change_to_id[d_train[i]])
return label_id
train_target = train_data['label']
print(read_category(train_target))
3.3 数据探索
下次学习数据预处理以及模型学习
4、模型评估
学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念