一 概述 (背)
背下这个图
二 深度学习相比传统机器学习的优势(背)
重点是是可以自动学习好的特征表示省去我们传统机器学习手动去提取特征了。
三 通用近似定理(了解)
根据通用近似定理,对于具有线性输出层和至少一个使用“挤压”性质的激活函数的隐藏层组成的前馈神经网络,只要其隐藏层神经元的数量足够,它可以以任意的精度来近似任何一个定义在实数空间中的有界闭集函数。(原理个人感觉比较像泰勒公式)
四 人工神经元
主要关注点在这个模型的两个函数。
人工神经网络由什么组成,这种网络具有什么结构?
五 前馈神经网络
记忆点在左边这个黑字,然后看下记号定义。
六 激活函数的性质
背红字
七 常见激活函数
全背
八 全连接前馈神经网络的局限性
背红字
九 卷积神经网络
神经网络常用三种结构: 前馈网络、 记忆网络、 图网络
背
十 卷积网络结构
全背 , softmax是一种激活函数
为什么卷积网络跳到全连接层?(背)
①全连接前馈神经网络权重矩阵参数非常多
②自然图像中的物体都具有局部不变性特征,全连接前馈网络很难提取这些局部
不变特征
③全连接层可以视作一种特殊的卷积
④网络改成全卷积形式后在某些场景可以提升效率
十一 卷积的计算
这个要考计算题,要掌握计算方法。卷积就是拿右边红色的那个(卷积核)按照步长一个个扫过去(步长就是你扫的时候要走几格,另外换另一行扫的时候要往下换行的行数也是步长。比如说步长为1就是换到下一行开始一个一个扫,步长为2就是隔一个扫,换行也是隔一行开始扫)。扫过去的时候拿卷积核(红色的)的对应值去一个个乘原图(蓝色的)的对应部分,然后全加起来再加上b(偏置项)就是输出的值。注意这里的输出是按一组一组乘加的,一组就是一个filter为一组,所以我们这里的红色部分其实是两组(W0和W1上面有标),我只演示一组,一般考试的时候也只考一组。
给你们算一下这个-5是怎么来的:我们说是红色乘蓝色然后全加起来再加上b,那就是0*1+0*1+0*1+0*0+1*-1
+0*0+0*0+2*-1+1*1+....*(太多了懒得写了,这里写出来的是第一个卷积核的,你们要算三个卷积核乘完的然后全加起来)+1(这个1是下面的那个b0(偏置项))=-2(第一个卷积核和原图卷积的值)+-2(第2个)+-2(第三个)+1(偏置项)=-5
特征图就是我们上面的输出,他的大小计算公式如上。给大家解读一下左边的是原特征图大小,height是高,width是宽度。右边:height和width是原图的高和宽,filter是卷积核的大小,pad是零填充数(对应我们上面那个就是原图被补上的一圈0,补一圈零填充就是1.注意我们补的0不算入原图像大小范围内),stride是步长。这个公式也要背。考试一般就考这俩计算。
十二 残差网络
背红字。
主要看最上面的图,最上面那个懂了下面俩也懂了。这个的意思就是:X是输入,X在经过一个卷积之后过一个relu函数然后再经过一个卷积,假设这个时候的输出是y,那我在下一次经过RELU激活函数的时候要加上之前那个X(输入)再过RELU激活函数。
这么干的原因是因为我们每次卷积会丢失一些信息(因为我们每次卷积都相当于一次特征提取所以肯定会丢失一些信息),所以要在经过多次卷积之后要再加上原图补充一下信息。这个就是最基本的残差单元的构成,要背。
十三
两个都要背
第一个为啥是劣势呢,因为序列数据一般数据和数据之间是有一定联系的,而我们的前馈网络层内的节点无连接,所以也就无法察觉这种联系。第二个就是没法处理变长度序列数据了,应该很好理解。
十四 循环网络
循环神经网络的更新
主要理解一下这里的t不是时间,只是表示处理到的第几个字,我们循环神经网络的过程是这样的:先初始化参数U,V,W 和 h0 。其中ht代表的是在处理第t个字时候的隐藏状态,h0就是最初始的隐藏状态。我们的ht大家不理解的话可以先记一个名字就行。然后开始更新,我们这里用的激活函数是tanh,作用就是把结果规范到【-1,1】这个区间,让输出更容易统一处理。我们的输出是Vh(t+1),就是第一个图的y(可以理解为就是一个被系统处理过的字),就是第(t+1)个字的输出。至于为什么我们的网络能记住之前的历史信息呢,秘诀就在h的公式里,大家可以看到我们的公式是Wht+U*Xt+1,这里的U,W是参数矩阵,Xt+1就代表了第t+1个字,而关键的就是这个ht,ht代表之前一个字的隐藏状态矩阵。然后一直这样生成到最后一个字的输出,最后根据与真实值的比较来更新参数UWV。
背的话把第一个和第2个图的公式(或者我写纸上的公式)背上就行。
十五 循环神经网络应用于不同类型机器学习任务时常见的体系结构
1. 一对一(one to one)—— 多层感知机(MLP)
2. 多对一(many to one)—— 情感分类(Sentiment Classification)
3. 一对多(one to many)—— 图像描述(Image Captioning)
4. 多对多(异质,heterogeneous)—— 机器翻译(Machine Translation)
5. 多对多(同构,homogeneous)—— 语言建模(Language Modeling)
背
十六 长短期记忆神经网络
【3分钟带你搞清LSTM 的计算过程和计算图】https://www.bilibili.com/video/BV1Sz4y1E7oL?vd_source=475841103ed648e475510e58c5b1abe2 看这个视频,讲的很nb。这里的要求是把公式和图全背上而且自己能写出来。
十七 神经网络优化的改善方法
背红字,熟读黑字
十八 优化算法
随机梯度下降
批量梯度下降
小批量梯度下降
十九 优化算法改进小结
二十 参数初始化
背
二十一 数据预处理
数据归一化的核心目的
不同特征的量纲(单位)和取值范围可能差异极大(如 “身高” 以厘米计,“体重” 以千克计),会导致模型训练偏差(如梯度下降收敛慢、距离类算法偏向大尺度特征)。数据归一化通过统一特征尺度,解决上述问题,提升模型性能。
二十二 逐层归一化
二十三 超参数优化
熟读
二十四 正则化 (背)
二十五 transformer
这段还是看这个博主的:【Transformer系列01 整体架构】https://www.bilibili.com/video/BV1W5BzYnEYN?vd_source=475841103ed648e475510e58c5b1abe2
二十六 无监督学习
二十七 图结构
二十八 深度生成模型
二十八 强化学习
这个公式不用记