深度学习笔记（四）——使用TF2构建基础网络的常用函数+简单ML分类实现

本文链接：https://blog.youkuaiyun.com/weixin_47407066/article/details/135561074

文中程序以Tensorflow-2.6.0为例
部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。
截图和程序部分引用自北京大学机器学习公开课

TF2基础常用函数

1、张量处理类

强制数据类型转换：

a1 = tf.constant([1,2,3], dtype=tf.float64)
print(a1)
a2 = tf.cast(a1, tf.int64)  # 强制数据类型转换
print(a2)

查找数据中的最小值和最大值：

print(tf.reduce_min(a2), tf.reduce_max(a2))

上一行例子中是对整个张量查找，也按照一定的方向查找，只按照行或只按照列，这由axis变量决定。通常axis=0代表按列查找，axis=1代表按行查找
在这里插入图片描述

a1 = tf.constant([[1,2,3],[2,3,4]])
print(a1)
print(tf.reduce_max(a1, axis=0))    # 按照列查找最大的行
print(tf.reduce_sum(a1,axis=1))     # 按照行计算各列的和

常见的张量检索类函数在tf.reduce_xxx可以查看

张量中数据的索引，可以按照行，或者按照列索引一个张量数据中的最大值和最小值

test = np.array([[1, 2, 3],[2, 3, 4],[5, 6, 7], [7, 8, 2]])
print(test)
print(tf.argmax(test, axis=0))  # 按列查找，找到每一列的最大值序列号
print(tf.argmax(test, axis=1))  # 按行查找，找到每一行的最大值序列号

随机数生成，最常用的随机数生成是正态分布和均匀分布，有时候后我们期望生成的随机数在0到1之间，归一化的数据有利于网络的快速收敛。除了上一篇博客深度学习笔记（三）中提及的tf中的随机数张量生成，也可以便捷的使用numpy（后文使用np表示）提供的随机数生成器，同时补充一点，大多数区间范围性质的函数，输入的区间都是前闭后开的，这点在tf np skl 甚至其他C++库中都是成立的。

# 生成[0,1)内的随机数
rdm = np.random.RandomState(seed=1)     # 定义随机数生成器rdm，使用随机数种子seed=1
usr_random1 = rdm.rand()    # 无输入维度时返回一个常量
usr_random2 = rdm.rand(2, 3) # 返回2行3列的随机数矩阵
print("usr_random1= {} \r\n usr_random2= {}".format(usr_random1, usr_random2))

下面继续归纳几个np中常用的数组处理函数。这几个np函数只做简单说明，具体用法可以用到时再深度查阅资料
数组垂直叠加

# 数组垂直叠加
a1 = np.array([1, 2, 3])
a2 = np.array([4, 5, 6])
b = np.vstack((a1, a2))
print(b)

根据多组范围和步长，生成多维数组，每组的起始结束和步长可以不同，最终输出的列数会以最长的那组为准，行数等于总的组数：

# np.mgrid[起始值：结束值：步长，起始值：结束值：步长， ...... ]
a1, a2 = np.mgrid[1:3:1, 3:6:0.5]
print(a1)
print(a2)

多维数组拉伸为一个维度，并且将多个数组对齐后一一配对：

# a1 a2 续上一段代码
b = np.c_[np.ravel(a1), np.ravel(a2)]   # a1.ravel()执行二维变一维拉伸，np.c_进行组合操作
print(b)

2、数学运算类

四则运算类：（注意：只有维度相同的数据才可以做四则运算，运算均是对应位置元素进行计算，同时tf中，除非指定，默认生成的张量数据时类型为int32或float32）

a1 = tf.constant([[1,2,3],[1,2,3]])
a2 = tf.constant([[2,3,4],[2,3,4]])
print(tf.add(a1, a2))   # 加
print(tf.subtract(a1, a2))  # 减
print(tf.multiply(a1, a2))  # 乘
print(tf.divide(a1, a1))    # 除

平方与开根号：（这里的计算同样是对应位置元素进行计算）

a1 = tf.fill([1,3], 3.)  # 这里的指定值为3. 小数点是为了生成float32类型数据
print(a1)
print(tf.pow(a1, 3))    # 开三次方根，第二个参数就是开根的次数
print(tf.square(a1))    # 平方
print(tf.square(a1))    # 开方

张量的叉乘（向量积）：

a = tf.ones([3, 2])     # 3行2列
b = tf.fill([2, 3], 3.) # 2行3列
print(tf.matmul(a, b))  # 矩阵叉乘得6行6列，叉乘的两个矩阵，前者的列数必须和后者的行数相等

3、训练处理类

标记训练参数，网络训练的过程实质上最重要的就是更新网络中的参数，所以需要告知网络中哪一个参数是可以被跟新的，这样tensorflow框架会自动的在网络反向传播的过程中记录每一层的梯度信息，便于处理。

# tf.Variable(初始值) 函数用于标记可变参数
tf.Variable(tf.random.normal([2,2],mean=0,stddev=1))

标签/特征数据匹配，训练之前，预先准备的特征数据和标签数据往往是区分开的，所以需要将他们一一对应上。将输入数据的特征和标签对应匹配，构建出新的用于训练的变量：

# data = tf.data.Dataset.from_tensor_slices((特征数据, 标签数据)) 可以直接输入numpy或者tensor格式的数据
features = tf.constant([12, 15, 20, 11])    # 特征数据
labels = tf.constant([0, 1, 1, 0])          # 标签
dataset = tf.data.Dataset.from_tensor_slices((features, labels))    # 对应结合
for element in dataset:
    print(element)  # 输出

在上面的程序中from_tensor_slices（）函数要求两个数据的第一个维度的大小必须相同即可，所以第一行的特征数据也可以改为：

features = tf.constant([[12,13], [15,16], [20,21], [10,11]])  # 第一个维度任然是4

记录梯度，以及自动微分，在训练的过程中自动跟新参数是一个循环加反向传播的过程，反向传播时，我们需要知道每个网络层中损失函数的梯度，在tf中可以使用上下文记录器自动在迭代过程中记录每个层的梯度信息。这主要由两个函数组成tf.GradientTape() 函数起到上下文记录的作用，用于记录层信息，gradient（）函数用于求导即求梯度

with tf.GradientTape() as tape:	# 记录下两行的层信息
    w = tf.Variable(tf.constant(3.0))	# 标记可变参数
    loss = tf.pow(w, 2)	# 设置损失函数类型
grad = tape.gradient(loss, w)	# 损失函数对w求导
print(grad)

在上面的代码中tf.pow(w, 2)表示损失函数为