
深度学习
文章平均质量分 69
东玮
这个作者很懒,什么都没留下…
展开
-
MMSS代码阅读笔记(6)
1. 学习率衰减:在使用mini-batch梯度下降法时,mini-batch数量不大,大概64或者128个样本,在迭代过程中会有噪音(蓝色线),下降朝向最小值,但是不会精确地收敛,所以你的算法最后在附近摆动,并不会真正收敛,因为你用的是固定值,不同的mini-batch中有噪音。但要慢慢减少学习率的话,在初期的时候,学习率还较大,你的学习还是相对较快,但随着变小,你的步伐也会变慢变小,所以最后你的曲线(绿色线)会在最小值附近的一小块区域里摆动,而不是在训练过程中,大幅度在最小值附近摆动。所以慢慢减少原创 2022-02-11 14:16:40 · 2278 阅读 · 0 评论 -
MMSS代码阅读笔记(5)
1.Bleu测评算法:BLEU 的全称是 Bilingual evaluation understudy,BLEU 的分数取值范围是 0~1,分数越接近1,说明翻译的质量越高。BLEU 主要是基于精确率(Precision)的。另外,还有召回率计算、惩罚因子等,可参考链接:机器翻译评测——BLEU算法详解(新增 在线计算BLEU分值)2. BPE算法:BPE(byte pair encoder)字节对编码,是2016年发表在ACL,提出来的一种算法,论文题目:《Neural Machine Tra原创 2022-02-10 21:18:59 · 1151 阅读 · 0 评论 -
MMSS代码阅读笔记(4)
1. 注意力机制(Attention)Attention:在预测结果时把注意力放在不同的特征上。举个例子:在预测“我妈今天做的这顿饭真好吃”的情感时,如果只预测正向还是负向,那真正影响结果的只有“真好吃”这三个字,前面说的“我妈今天做的这顿饭”基本没什么用。如果是直接对token embedding进行平均去求句子表示会引入不少噪声。所以引入attention机制,让我们可以根据任务目标赋予输入token不同的权重。名词理解:Token和Tokenization:Tokenization is原创 2022-02-10 11:43:56 · 342 阅读 · 0 评论 -
MMSS代码阅读笔记(3)
1. ImageFilter(图像滤波器):ImageFilter是PIL的滤镜模块,当前版本支持9中加强滤镜,通过这些预定义的滤镜,可以方便的对图片进行一些过滤操作,从而去掉图片中的噪音(部分的消除),这样可以降低将来处理的复杂度(如模式识别等)。2. Self-attention(自注意力机制):attention 机制作用——>让机器学会和人类一样有关注的重点。在计算attention时主要分为三步,(1)将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感原创 2022-01-26 15:31:15 · 259 阅读 · 0 评论 -
MMSS代码阅读笔记(2)
1. Luong attention机制:Attention原理简析Attention机制总是这样三个步骤的框架:每个方式的不同在于每一个步骤内用到的计算方式。2. LSTM机制: LSTM这一篇就够了3. 神经网络:(1) 全连接神经网络(DNN):一个DNN结构只有一个输入层,一个输出层,输入层和输出层之间的都是隐藏层。每一层神经网络有若干神经元,层与层之间神经元相互连接,层内神经元互不连接,而且下一层神经元连接上一层所有的神经元。隐藏层比较多(>2)的神经网络叫做深度神经网原创 2022-01-23 23:23:55 · 765 阅读 · 0 评论 -
MMSS代码阅读笔记(1)
Optimizer优化器: 在深度学习反向传播过程中,指引损失函数(目标函数)的各个参数往正确的方向更新合适的大小,使得更新后的各个参数让损失函数(目标函数)值不断逼近全局最小。事实上,使用梯度下降进行优化,是几乎所有优化器的核心思想。当我们下山时,有两个方面是我们最关心的:1:优化方向,决定“前进的方向是否正确”,在优化器中反映为梯度或动量。2:步长,决定“每一步迈多远”,在优化器中反映为学习率。所以优化器有两个公式:一个计算步长(梯度),一个计算向量(方向)。反向传播: 反向传播——.原创 2022-01-22 20:28:13 · 2454 阅读 · 0 评论 -
深度学习 | 三个概念:Epoch, Batch, Iteration(阅读笔记)
重点:Epoch(时期):当一个完整的数据集通过了神经网络一次并且返回了一次。(也就是说,所有训练样本在神经网络中都 进行了一次正向传播 和一次反向传播 )当一个Epoch的样本(所有的训练样本)数量太庞大,就将其分成多个Batch(分批) 来进行训练。Iteration(一次迭代):训练一个Batch就是一次Iteration。在神经网络中传递完整的数据集一次是不够的,需要将完整的数据集在同样的神经网络中传递多次。我们使用的是有限的数据集,并且我们使用一个迭代过程即梯度下降原创 2022-01-22 19:04:01 · 829 阅读 · 0 评论