
李宏毅深度学习
文章平均质量分 91
comli_cn
算法工程师,微信公众号:李歪理
展开
-
李宏毅深度学习笔记(十四)Transformer
0. 前言Transformer实际上就是一个带有“self-attention”的sequence-to-sequence模型。1.Transformer的提出一般的sequence-to-sequence模型是用RNN来做的,但这样构成的模型不能进行平行计算,例如下图中左边的模型就是RNN结构的sequence-to-sequence模型,想要求出b4b^4b4就得先从a1a^1a1输入开始一步一步往后求,直到求出b4b^4b4,而不能对a1,a2,a3,a4a^1,a^2,a^3,a^4a1,a原创 2021-02-01 21:45:01 · 526 阅读 · 2 评论 -
李宏毅深度学习笔记(十三)LSTM(长短期记忆网络)
1.结构2.计算例1:假设x1x_1x1,x2x_2x2,x3x_3x3均为输入,当x2=1x_2=1x2=1的时候将x1x_1x1加入记忆单元,当x2=−1x_2=-1x2=−1时将将记忆单元清空,当x3=1x_3=1x3=1的时候输出记忆单元里面的数值。根据规则,最开始记忆单元里面存储的是0,当输入x1=1x_1=1x1=1时因为x2=0x_2=0x2=0,x3=0x...原创 2020-02-19 17:11:41 · 2623 阅读 · 0 评论 -
李宏毅深度学习笔记(十二)RNN(循环神经网络)
参考.参考.原创 2020-02-18 18:04:00 · 574 阅读 · 0 评论 -
李宏毅深度学习笔记(十一)CNN(卷积神经网络)
我的氛围原创 2019-11-17 22:14:21 · 2060 阅读 · 0 评论 -
李宏毅深度学习笔记(十)Anomaly Detection(异常检测)
简单来说异常检测就是在一大堆数据中将正常的数据和异常的数据分开,把异常数据检测出来。具体方法就是通过训练集训练出一个可以用来做分类的函数。在进行异常检测的时候所提供的训练集有下面几种类型:1、训练集里面的样本都有标记,如果在测试集里根据分类函数分出来的某个样本不属于训练集里的任何一个类别则判定该样本为未知;2、训练集里所有样本均为正常样本;3、训练集里存在少许异常样本,但大多数均为正常样本,...原创 2019-11-15 21:52:00 · 1752 阅读 · 0 评论 -
李宏毅深度学习笔记(九)BP(Back propagation)神经网络计算详解(手算)
这里我用一个实例来实现以下BP神经网络计算的过程:这个实例中输入x1=1x_1=1x1=1,x2=−1x_2=-1x2=−1,输出y=0.5y=0.5y=0.5,w1w_1w1到w6w_6w6为参数。先通过上述模型计算出各个神经元的输入与输出:构造损失函数,这里我们使用交叉熵损失函数C=−y^lnyC=-\hat ylnyC=−y^lny接下来用反向传播来求解偏导数:到这一...原创 2019-11-14 09:51:43 · 3984 阅读 · 8 评论 -
李宏毅深度学习笔记(八)BP(Back Propagation)神经网络
为了使得计算梯度下降时更加有效率,我们使用反向传播(backpropagation)。链式法则我们使用链式法则对神经网络的损失函数求偏导然后就可以代入式子优化参数了:其中我们先考虑其中的一个节点:如图所示我们称∂z∂w\frac{\partial z}{\partial w}∂w∂z为前传(Forward pass),称∂C∂z\frac{\partial C}{\parti...原创 2019-11-13 17:20:00 · 625 阅读 · 0 评论 -
李宏毅深度学习笔记(七)初探深度学习
Neural Network如图所示,下图前端的1和-1为输入层,y1y_1y1和y2y_2y2为输出层,中间的蓝色圆圈、红色圆圈和绿色圆圈为隐藏层。以输入层到第一层隐藏层的计算为例,如果第一层隐藏层的函数为Sigmoid函数,则当以第一层隐藏层作为输入时输入向量的计算如下:推广到一般情况:在做多分类时通常会在输出层加上一个Softmax:举一个数字识别的例子:在这样的多层...原创 2019-11-12 17:04:56 · 222 阅读 · 0 评论 -
李宏毅深度学习笔记(六)逻辑回归
设置函数我们可以找到一个函数Pw,b(C1∣x)P_{w,b}(C_1|x)Pw,b(C1∣x),如果Pw,b(C1∣x)≥0.5P_{w,b}(C_1|x)\ge0.5Pw,b(C1∣x)≥0.5则输出C1C_1C1,否则输出C2C_2C2。逻辑回归的模型如下:Pw,b(C1∣x)=σ(z)P_{w,b}(C_1|x)=\sigma(z)Pw,b(C1∣x)=σ(z)z=...原创 2019-11-12 10:14:47 · 287 阅读 · 0 评论 -
李宏毅深度学习笔记(五)分类:概率生成模型(Probabilistic Generative Model)——朴素贝叶斯
比如说要对一对数据进行二分类的话,我们要先从有标记训练集中将其中一类数据提取出来然后给它赋予一个概率生成模型,这个概率生成模型的意思是我们所提取出来的数据最有可能是由这个概率生成模型所生成的,换句话说如果我们用这个概率生成模型生成一组数据的话,这组数据跟我们所提取出来的数据会有比较高的相似度。之后我们对训练集中另一类数据也做同样的处理,这样便得到了两个概率生成模型。进行分类的时候我们要用朴素贝叶...原创 2019-11-09 20:19:06 · 891 阅读 · 0 评论 -
李宏毅深度学习笔记(四)观测误差的来源——欠拟合和过拟合的解释
测试误差一般来源于偏差(bias)和方差(variance)什么是估计量的偏差和方差∙\bullet∙估计变量xxx的平均值:假设xxx的平均值是μ\muμ;假设xxx的方差是σ2\sigma^2σ2那么在已知xxx的一些样本点的情况下如何来求μ\muμ呢?...原创 2019-11-08 21:37:34 · 504 阅读 · 0 评论 -
李宏毅深度学习笔记(三) 特征缩放(Feature Scaling)
比如说我们这里有一个函数:y=b+w1x1+w2x2y=b+w_1x_1+w_2x_2y=b+w1x1+w2x2要对它进行梯度下降的话原创 2019-11-07 21:01:19 · 1249 阅读 · 0 评论 -
李宏毅深度学习笔记(二)随机梯度下降(Stochastic Gradient Descent)
已知损失函数为:L=∑j=1n(y^j−(b+∑i=1mwixij))2L=\sum_{j=1}^n(\hat y^j-(b+\sum_{i=1}^{m}w_ix_i^j))^2L=∑j=1n(y^j−(b+∑i=1mwixij))2·············································(1)nnn代表样本的个数,mmm代表特征的个数。∙\bul...原创 2019-11-07 15:33:59 · 507 阅读 · 0 评论 -
李宏毅深度学习笔记(一)Adagrad
引出Adagrad在使用梯度下降来求取合适的预测函数的参数的时候我们要设置合适的学习率(learning rate)η\etaη。η\etaη的取值过大的话会使得每次步子太大,从而导致损失函数(loss function)不能达到最小值,甚至有可能越来越大;而η\etaη的取值过小的话会导致梯度下降的速度太慢很费时间。因为刚开始进行梯度下降的时候我们所选择的参数的初始值会使得损失函数离它所能达到...原创 2019-11-06 20:58:36 · 1124 阅读 · 0 评论