台大李宏毅Machine Learning 2017Fall学习笔记 (9)Keras

最新推荐文章于 2022-09-27 16:34:21 发布

原创最新推荐文章于 2022-09-27 16:34:21 发布 · 588 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#machine-learning #deep-learning #机器学习 #深度学习 #李宏毅

台大李宏毅Machine Learning 2017Fall 专栏收录该内容

16 篇文章

订阅专栏

本文介绍了使用Keras快速构建深度学习模型的方法。Keras作为TensorFlow的高级API，简化了模型搭建流程。文章详细解释了如何通过三个步骤定义模型、选择损失函数以及优化器。此外还探讨了不同批量大小对训练速度的影响。

台大李宏毅Machine Learning 2017Fall学习笔记 (9)Keras

本节课主要讲述了如何利用Keras搭建深度学习模型。Keras是基于TensorFlow封装的上层API，看上去要好用不少啊~~~
用Keras搭建深度学习法模型类似搭积木，直接贴PPT了。

Step 1: Define a set of function

这里写图片描述
上图中 $model=Sequential()$ 的作用是宣告一个model， $Dense$ 表示全连接层。激活函数的选择很多除了sigmoid外，还有softmax、softsign、relu、tanh、hard_sigmoid和linear.

Step 2: Goodness of function

这里写图片描述
上图中，损失函数采用交叉熵函数。

Step 3: Pick the best function

这里写图片描述
优化方法有很多，除了adam外，还有SGD、RMSprop、Adagrad、Adadelta、Adam、Adamax和Nadam.(好多竟然是第一次见，我屮艸芔茻。。。。
x_train是二维参数：第1维是有多少个example(比如：有10000张图片)；第2维是每张图片有多少个pixel(比如：一张图有784个pixel)。
y_train是二维参数：第1维是有多少个example(比如：有10000张图片)；第2维是label向量(手写数字识别是10维的label向量)。
下图形象地展示了两个参数的维度及含义。
这里写图片描述

Batch的意义

在深度学习的训练过程中，会将一定数量的example组成一个batch送给模型，让其训练，现在详细解释一下。
这里写图片描述
batch中example的选择是随机进行的，并且是深度学习框架代劳的。自己只需要定义参数就好。

若一个epoch中有100个batch，则一次epoch后会更新100次参数；20次epoch后会更新2000次参数。
若Batch_size=1，则训练的优化算法就成了随机梯度下降(SGD)。
之前的课程中提到过，SGD算法速度较快，采用的较多。那为何不把所有的batch_size都设为1呢？
再说一说batch_size大小对训练过程的影响。
这里写图片描述
如上图所示，在相同的时间内，batch_size=1或10，在相同时间内更新参数的次数可以认为相同(上图中例均为50000次)。
但是当batch_size=10时，参数更新的更稳定，而且基于并行计算其计算更快，故而把batch_size设为10了。
batch_size更大时，训练速度更快的原因是GPU的并行计算。并行计算主要是针对矩阵运算而言的。
这里写图片描述
正如上图中所示：SGD和Mini-Batch两种计算方式后者更快。可以认为并行计算10个example和单独计算1个example的时间相同。
既然batch_size越大，计算速度越快，将其设置的无限大行不行？答：不行。原因有二。其一：若batch_size无限大，GPU无法提取运算。虽然并行计算10个和1个时间差不多，但并行计算10000个就和计算1个不一样了…这属于硬件问题；其二：很容易卡到local minima或鞍点位置，导致训练无法进行。