
动手学深度学习
@少帅
这个作者很懒,什么都没留下…
展开
-
领域总结和学习方向
原创 2022-01-23 13:37:49 · 304 阅读 · 0 评论 -
优化算法总结
优化算法凸优化:ps:对学习率不敏感。原创 2022-01-23 13:31:10 · 306 阅读 · 0 评论 -
Transformer
一 自注意力二Transformer原创 2022-01-23 12:10:58 · 779 阅读 · 0 评论 -
编码器-解码器架构 束搜索 注意力机制
一 编码器-解码器架构二 束搜索ps:取log是给长句子一点好处,越长的数字累乘后越小,log后变负数绝对值更大。三 注意力机制原创 2022-01-21 18:59:42 · 2299 阅读 · 0 评论 -
序列模型 门控循环单元(GRU)长短期记忆网络(LSTM)深度循环网络
一 序列模型二 门控循环单元三 长短期记忆网络(LSTM)四 深度循环网络五 双向循环神经网络原创 2022-01-21 13:01:26 · 1052 阅读 · 0 评论 -
语义分割 转置卷积
转置过程相当于卷积的逆运算。转置卷积计算方式:原创 2022-01-19 19:11:34 · 2221 阅读 · 0 评论 -
微调 锚框 Fast RCNN
3.Fast RCNN 1.2.ps:卷积复用 3. 4.5.6.ps: ceter_net:将锚框换算成像素级别的标号。...原创 2022-01-19 12:15:43 · 460 阅读 · 0 评论 -
BatchNorm,LayerNorm,InstanceNorm,GroupNorm ResNet
BatchNorm,LayerNorm,InstanceNorm,GroupNorm ResNet特别注意:B指的是批数量。看这个理解的更加清楚:(93条消息) (BN)批量归一化全面解析_Paulzhao6518的博客-优快云博客_批量归一化二 resnet可以训练1000层的原因底层也可以获得较大梯度...原创 2022-01-18 10:42:34 · 2407 阅读 · 0 评论 -
步长 填充 多输入输出通道 池化层 从lenet到goolenet
1.步长是为了增大感受野,填充是为了调整输出的长和宽利于计算和变换,不改变高宽。2.多输入是因为图像大多数是三通道的,每个输出通道可以识别特定模式,输入通道识别并组合输入中的模式。就比如说底层就是识别边缘分布,再下一层识别出猫的胡须,耳朵,不断加深,在上层识别组合出猫头,尾巴,最后是猫的种类,最后输出种类数。3.1*1卷积核不识别空间模式,只融合通道。4.卷积层对位置敏感,因为会有抖动,所以需要一定程度的平移不变性,所以需要池化层。池化层允许你的输入有一定偏移,即有一定模糊化效果。5.LeN原创 2022-01-16 17:16:18 · 1905 阅读 · 0 评论 -
从全连接到卷积层
卷积就是信号与系统里学的卷积,然后其实神经网络中用的卷积用的是二维交叉相关,名字叫做卷积。原创 2022-01-15 18:47:17 · 500 阅读 · 0 评论 -
k折交叉验证 参数管理 读取文件 使用gpu
一 数据处理技巧1.k折交叉验证:处理小样本数据集将样本分成k份,然后分配训练和验证比例,轮次训练和验证。二 参数管理ps:1.*是python的基本语法,解包。有多个元素需要传入时使用,访问list的每个值。*对list进行拆解,这样print函数接收到的就是单独的变量。这里也可以不加*,这样输出的就是一个list。 2.这里的1.weight不存在,应该是relu层ps:不能将weight全部初始化为1,如果这么...原创 2022-01-09 17:51:27 · 596 阅读 · 0 评论 -
关于激活函数的思考
激活函数为什么能将非线性变为线性?原创 2022-01-09 11:00:46 · 696 阅读 · 0 评论 -
数值稳定之合理的权重初始值和激活函数让训练更加稳定
合理的权重初始值和激活函数让训练更加稳定。原创 2022-01-08 21:30:37 · 536 阅读 · 0 评论 -
丢弃法 损失函数 训练和预测流程总结
一 丢弃法1.dropout是正则项,只在训练中使用,不在推理中使用。2.目的:对输入数据鲁棒。解决过拟合。3.丢弃法:在层间加入噪音。4.使用dropout后期望不变 。5.重复性:使用随机种子。二 损失函数1.表征预测值与真实值之间的差距。2.常用类别:均方损失 绝对值损失 Huber is Robust Loss 交叉熵损失三.训练预测流程总结1.处理数据下载数据 加载数据 送入设备2.训练(预测)定义模型 定义优化算法 开始循环.原创 2022-01-08 16:19:45 · 696 阅读 · 0 评论 -
权重衰退之罚(规则项)
为什么要用∣∣w∣∣*2作为一个罚用来限制w参数的值。为什么是这个二范数,而不是他们为什么等价。原创 2022-01-07 19:06:16 · 413 阅读 · 0 评论 -
再学感知机原理(通透)
学习深度学习半年多,现在回头再学一遍,收获良多。本文基于个人不理解迭代公式为什么是:θ=θ+α∑y(i)x(i),为什么是y(i)x(i)所总结,自认为现在明白后自己对深度学习理解更为透彻。原创 2022-01-07 13:16:01 · 328 阅读 · 0 评论