文中程序以Tensorflow-2.6.0为例
部分概念包含笔者个人理解,如有遗漏或错误,欢迎评论或私信指正。
截图和程序部分引用自北京大学机器学习公开课
TF2基础常用函数
1、张量处理类
强制数据类型转换:
a1 = tf.constant([1,2,3], dtype=tf.float64)
print(a1)
a2 = tf.cast(a1, tf.int64) # 强制数据类型转换
print(a2)
查找数据中的最小值和最大值:
print(tf.reduce_min(a2), tf.reduce_max(a2))
上一行例子中是对整个张量查找,也按照一定的方向查找,只按照行或只按照列,这由axis
变量决定。通常axis=0
代表按列查找,axis=1
代表按行查找
a1 = tf.constant([[1,2,3],[2,3,4]])
print(a1)
print(tf.reduce_max(a1, axis=0)) # 按照列查找最大的行
print(tf.reduce_sum(a1,axis=1)) # 按照行计算各列的和
常见的张量检索类函数在tf.reduce_xxx
可以查看
张量中数据的索引,可以按照行,或者按照列索引一个张量数据中的最大值和最小值
test = np.array([[1, 2, 3],[2, 3, 4],[5, 6, 7], [7, 8, 2]])
print(test)
print(tf.argmax(test, axis=0)) # 按列查找,找到每一列的最大值序列号
print(tf.argmax(test, axis=1)) # 按行查找,找到每一行的最大值序列号
随机数生成,最常用的随机数生成是正态分布和均匀分布,有时候后我们期望生成的随机数在0到1之间,归一化的数据有利于网络的快速收敛。除了上一篇博客深度学习笔记(三) 中提及的tf中的随机数张量生成,也可以便捷的使用numpy(后文使用np表示)提供的随机数生成器,同时补充一点,大多数区间范围性质的函数,输入的区间都是前闭后开的,这点在tf np skl 甚至其他C++库中都是成立的。
# 生成[0,1)内的随机数
rdm = np.random.RandomState(seed=1) # 定义随机数生成器rdm,使用随机数种子seed=1
usr_random1 = rdm.rand() # 无输入维度时返回一个常量
usr_random2 = rdm.rand(2, 3) # 返回2行3列的随机数矩阵
print("usr_random1= {} \r\n usr_random2= {}".format(usr_random1, usr_random2))
下面继续归纳几个np中常用的数组处理函数。这几个np函数只做简单说明,具体用法可以用到时再深度查阅资料
数组垂直叠加
# 数组垂直叠加
a1 = np.array([1, 2, 3])
a2 = np.array([4, 5, 6])
b = np.vstack((a1, a2))
print(b)
根据多组范围和步长,生成多维数组,每组的起始结束和步长可以不同,最终输出的列数会以最长的那组为准,行数等于总的组数:
# np.mgrid[起始值:结束值:步长,起始值:结束值:步长, ...... ]
a1, a2 = np.mgrid[1:3:1, 3:6:0.5]
print(a1)
print(a2)
多维数组拉伸为一个维度,并且将多个数组对齐后一 一配对:
# a1 a2 续上一段代码
b = np.c_[np.ravel(a1), np.ravel(a2)] # a1.ravel()执行二维变一维拉伸,np.c_进行组合操作
print(b)
2、数学运算类
四则运算类:(注意:只有维度相同的数据才可以做四则运算,运算均是对应位置元素进行计算,同时tf中,除非指定,默认生成的张量数据时类型为int32或float32)
a1 = tf.constant([[1,2,3],[1,2,3]])
a2 = tf.constant([[2,3,4],[2,3,4]])
print(tf.add(a1, a2)) # 加
print(tf.subtract(a1, a2)) # 减
print(tf.multiply(a1, a2)) # 乘
print(tf.divide(a1, a1)) # 除
平方与开根号:(这里的计算同样是对应位置元素进行计算)
a1 = tf.fill([1,3], 3.) # 这里的指定值为3. 小数点是为了生成float32类型数据
print(a1)
print(tf.pow(a1, 3)) # 开三次方根,第二个参数就是开根的次数
print(tf.square(a1)) # 平方
print(tf.square(a1)) # 开方
张量的叉乘(向量积):
a = tf.ones([3, 2]) # 3行2列
b = tf.fill([2, 3], 3.) # 2行3列
print(tf.matmul(a, b)) # 矩阵叉乘得6行6列,叉乘的两个矩阵,前者的列数必须和后者的行数相等
3、训练处理类
标记训练参数,网络训练的过程实质上最重要的就是更新网络中的参数,所以需要告知网络中哪一个参数是可以被跟新的,这样tensorflow框架会自动的在网络反向传播的过程中记录每一层的梯度信息,便于处理。
# tf.Variable(初始值) 函数用于标记可变参数
tf.Variable(tf.random.normal([2,2],mean=0,stddev=1))
标签/特征数据匹配,训练之前,预先准备的特征数据和标签数据往往是区分开的,所以需要将他们一 一对应上。将输入数据的特征和标签对应匹配,构建出新的用于训练的变量:
# data = tf.data.Dataset.from_tensor_slices((特征数据, 标签数据)) 可以直接输入numpy或者tensor格式的数据
features = tf.constant([12, 15, 20, 11]) # 特征数据
labels = tf.constant([0, 1, 1, 0]) # 标签
dataset = tf.data.Dataset.from_tensor_slices((features, labels)) # 对应结合
for element in dataset:
print(element) # 输出
在上面的程序中from_tensor_slices()
函数要求两个数据的第一个维度的大小必须相同即可,所以第一行的特征数据也可以改为:
features = tf.constant([[12,13], [15,16], [20,21], [10,11]]) # 第一个维度任然是4
记录梯度,以及自动微分,在训练的过程中自动跟新参数是一个循环加反向传播的过程,反向传播时,我们需要知道每个网络层中损失函数的梯度,在tf中可以使用上下文记录器自动在迭代过程中记录每个层的梯度信息。这主要由两个函数组成tf.GradientTape()
函数起到上下文记录的作用,用于记录层信息,gradient()
函数用于求导即求梯度
with tf.GradientTape() as tape: # 记录下两行的层信息
w = tf.Variable(tf.constant(3.0)) # 标记可变参数
loss = tf.pow(w, 2) # 设置损失函数类型
grad = tape.gradient(loss, w) # 损失函数对w求导
print(grad)
在上面的代码中tf.pow(w, 2)
表示损失函数为 l o s s = w 2