
Master深度学习
文章平均质量分 73
Francis_s
在这里记录自己ML和DL的学习笔记。好好学习,认真做笔记,多看面经多交流,多刷LC,好好生活!
展开
-
Softmax和交叉熵的联系
刚开始上DL的课就很好奇,为什么大家都选softmax是交叉熵是搭配使用的,老师也不讲....1. softmax + crossentropy首先是理解softmax究竟做了什么事,它就是把模型的输出向量都规整到用概率的形式去表达了,这里softmax的公式就不放了。譬如这个predict总共有5个类别,某一个样本进网络后的softmax输出是一个vector,[0.1, 0.2, 0.5, 0.1, 0.1],这里表示的是这个样本一个概率分布:P(X,Y) ...原创 2021-10-17 00:13:48 · 442 阅读 · 0 评论 -
不同种类的网络的特点
这个知识点看了好多次,但是每次都忘记,今天就写一个加深一下印象判别式网络就突出的就是判别两个字,是有一个决策边界在里面,我们有一个样本,有一堆历史数据,当大于某一个阈值,我们就认为是A类,小于的话,就认为是B类。判别式网络的例子:LR,SVM等生成式网络 具体是每一种类别的特征我们模型都会去学习(建模),然后从当前输入样本中提取特征,放在每一类别的模型里面,看那个概率更大,哪个大就是哪个。所以生成式模型求的是联合概率, X就是输入的样本,Y就是每一个类别。生成式网络的例子:Naive原创 2021-10-16 21:46:43 · 549 阅读 · 0 评论 -
从EM到VI到AE到VAE
1. EM 某批数据因为一些中间过程我们看不到,所以不可以直接观测变量X 最经典的例子就是三个不同的盒子装了各五个球,里面有数量不一的红黑两种颜色的球,如果我们可以看着他先选什么盒子,然后增大实验次数,我们可以近似地得到每个盒子里面红黑两种球的概率,但现在老板不给我们看他选什么盒子了,直接让我们估计每个盒子里面红黑球的比例,这时就需要引入隐变量了 所以换句话说隐变量是一种不能被直接观察,但是却影响系统状态和输出的一种存在。 ...原创 2021-10-15 06:18:47 · 751 阅读 · 0 评论 -
MLE 和 MAP 做个总结
之前自己一直理解不来MLE和MAP的区别,脑筋一直拗不过来,今天难得没课重新捡起来,解决一下最重要的就是怎么理解模型的参数在公式里面的地位,充当什么角色!基本上每一篇博客都会介绍一下品频率学派和贝叶斯学派,一开始觉得怎么都千篇一律,后来发现还真有点道理。频率学派,我自己理解就是概率,他们觉得当前这个模型的参数已经上天安排好了,也就是固定的,我们的任务就是找到的麻,所以直接对数据(样本)进行建模。用MLE进行操作贝叶斯学派,我自己理解就是统计,他们觉得这个参数上天没安排好,这个参数其实.原创 2021-10-06 20:20:52 · 624 阅读 · 0 评论 -
Long Short Term Memory(LSTM)
LSTM 的提出就是为了解决RNN的梯度消失/爆炸以至于引起对时间久远的信息不敏感的问题(久远的信息对当前时刻的更新不做贡献)1.LSTM 结构 总的来说就是多了几个控制的门,每次新的信息进来还有每次拿旧的信息我都不是全部拿,而是有选择性地拿,至于怎么选择性地拿,就交给网络自己学习了 直接上图: 在RNN的基础上,除了隐层状态外,我们引入了新的状态,用来决定我要保留之前的多少信息。最最关键就是这个了C了,暂且称为Cell吧 ...原创 2021-10-06 07:17:25 · 452 阅读 · 0 评论 -
RNN(循环神经网络)
假如我们现在需要做一个句子翻译,"dog is beautiful",我们如果单独分开预测的话,不知道上下文的意思,会影响预测的value,但是如果连在一起,会很好“这段话有问题,后面再改”于是我们就引入一个循环神经网络,在我预测下一个单词/动作/其他的时候,网络的参数是保留之前预测的特点!1. RNN的结构和流程直接上花书的图: 一开始是真的看不懂这个图,后面看了宝可梦训练大师的才知道怎么玩 譬如还是上面的三个单词,整个流程就是: ...原创 2021-10-05 04:54:18 · 429 阅读 · 0 评论 -
Spatial Transformer Networks(STN)
1. 首先要知道CNN具有平移不变性这是为什么呢?可以回忆一下CNN都做了什么,第一就是卷积,第二就是maxpool。 当图像的某一个特征从左上角移动到右下角了,那我们CNN会不会受到影响呢? 因为我们卷积是整个图像都扫一遍,所以无论特征在哪里,我们的卷积核都会扫一遍,所以特征都会被采样到。 接着是maxpool,maxpool的作用就是将感受野里面的最大值给拿出来,其实也是卷积的作用,只不过是规则不同了,所以只要特征在上面卷积保留下...原创 2021-10-04 23:21:03 · 173 阅读 · 0 评论 -
CNN暂时笔记
在讨论卷积核的维度的时候,是不把channel维加进去的(或者说,卷积核的维度指的的进行滑窗操作的维度,而滑窗操作是不在channel维度上进行的,因为每个channel共享同一个滑窗位置, 但每个channel上的卷积核权重是独立的)。所以2D conv的卷积核其实是(c, k_h, k_w),3D conv的卷积核就是(c, k_d, k_h, k_w),2D卷积操作如图1所示,为了解释的更清楚,分别展示了单通道和多通道的操作。且为了画图方便,假定只有1个filter,即输出图像只有一个chanel原创 2021-10-01 01:08:04 · 129 阅读 · 0 评论 -
网络参数的优化方法总结
1. 随机梯度下降本质还是梯度下降,更新权值的时候我们只有单个样本的误差去作为做更新,所以只要这个样本是一个噪声/离群值,就会对当前这次权重和偏置的更新造成比较严重的影响。...原创 2021-09-16 03:19:49 · 1577 阅读 · 0 评论