
深度学习基础
深度学习基础
无意识积累中
这个作者很懒,什么都没留下…
展开
-
深度学习基础----信息量,信息熵,交叉熵,KL散度
信息量:信息量:信息熵:KL散度:交叉熵:原创 2023-03-01 12:32:27 · 168 阅读 · 0 评论 -
深度学习基础:可解释性
可解释性原创 2023-02-27 21:06:21 · 223 阅读 · 0 评论 -
深度学习基础----Exponential Moving Average
pytorch实现的时候非常需要的基础知识:(参考:)pytorch实现的时候非常需要的基础知识:(参考:)pytorch实现:(参考一下博客:)原创 2022-12-10 00:42:03 · 555 阅读 · 0 评论 -
深度学习基础----GAE和VGAE
GAE和VGAE快速入门原创 2022-08-21 20:34:22 · 2089 阅读 · 0 评论 -
深度学习基础----ROC曲线和AUC值
这个链接里的视频就很好:【小萌五分钟】机器学习 | 模型评估: ROC曲线与AUC值_哔哩哔哩_bilibili原创 2022-08-21 18:15:51 · 848 阅读 · 0 评论 -
深度学习基础----GNN谱域和空域 (不断完善更新积累)
慢慢理解GNN谱域和空域原创 2022-07-25 00:40:48 · 1069 阅读 · 1 评论 -
深度学习基础----遇到nan并解决的情况
1.用了torch.log(), 出现nan, 解决的方式:torch.log(+1e-8)原创 2021-11-28 22:32:53 · 1698 阅读 · 0 评论 -
胶囊网络资源
最好的一个: (整个原理清清楚楚, 明明白白)【小小】2D胶囊网络论文精度 Dynamic Routing Between Capsules_哔哩哔哩_bilibili全英文版: (还行)Capsule Networks胶囊网络教程,Hinton本人盛赞(英语字幕)_哔哩哔哩_bilibili李宏毅概览:胶囊网络-Capsule Network_哔哩哔哩_bilibili...原创 2021-11-23 11:49:13 · 218 阅读 · 0 评论 -
图神经网络----GCN图卷积神经网络+代码理解
(文章写得非常好,看不懂的是傻瓜......)GCN问世已经有几年了(2016年就诞生了),但是这两年尤为火爆。本人愚钝,一直没能搞懂这个GCN为何物,最开始是看清华写的一篇三四十页的综述,读了几页就没读了;后来直接拜读GCN的开山之作,也是读到中间的数学部分就跪了;再后来在知乎上看大神们的讲解,直接被排山倒海般的公式——什么傅里叶变换、什么拉普拉斯算子等等,给搞蒙了,越读越觉得:“哇这些大佬好厉害,哎我怎么这么菜!”。就这么反反复复,尝试一次放弃一次,终于慢慢有点理解了,慢慢从那些公式的里跳了出来转载 2020-11-12 20:10:07 · 8886 阅读 · 1 评论 -
注意力机制----transformer中注意力机制
注意力机制的计算: 要计算s_j就要先计算c_j, 要计算c_j就要先计算a_j: 将decoder当前状态s_j与m个h_i做运算得到权重向量(权重的具体计算见下) h_i,s_j 各自乘以权重矩阵W_K,W_Q k,q进行内积 经softmax 一共有三个“权重矩阵”: 在seq2seq版本注意力机制中,c的更新依靠: a和h(encoder状态) 在transformer版本的注意力机制中,c的更新依靠:a和v ..原创 2020-11-08 20:03:13 · 6357 阅读 · 2 评论 -
深度学习基础----Transformer(简单图解版+细节版)
一.transformer编码器transformer模型的直觉:positional encoding(位置嵌入|编码)self attention mechanism(自注意力机制与注意力矩阵可视化)layer normalization和残差连接transformer encoder整体结构二.transformer代码解读参考视频:https://www.bi...转载 2020-11-17 09:44:14 · 4068 阅读 · 0 评论 -
注意力机制----Multi-Head Attention 和 transformer
multi-head attention: 单个attention输入后,对应有三个权重矩阵 multi-head输入后,如果有l个头,就有l×3个参数矩阵 multi-head输出的向量会串联起来,变长 不只是attention,self—attention也有多头 transformer的encoder: transformer的encoder的一层结构:multi—head attention+dense+全连接层 可...原创 2020-11-08 20:42:35 · 2139 阅读 · 0 评论 -
深度学习基础----损失函数:BCELoss,BCEWithLogitsLoss,BPRLoss,TOP1Loss
BCELoss:CE和BCE:CrossEntropy。 B:binary,即用于二分类问题输入:Sigmoid:目标:损失函数:BCEWithLogitsLoss:就是把Sigmoid-BCELoss合成一步 BPRLoss:推荐系统领域有两个问题:Raking和Rating Ranking:Top-N的推荐 Rating:预测物品打分 最新研究都是做排序的: 排序比较贴近实际 评分...原创 2020-11-06 08:46:39 · 6554 阅读 · 0 评论 -
深度学习基础----知识蒸馏
描述知识蒸馏常用于模型压缩 已经训练好的模型A去教另一个模型B 老师学生模型:A比B更强 在老师的帮助下,学生模型可以突破自我学得更好。 应用:把更高效/小的模型放到嵌入式系统中模型损失函数代码L2正则化和KL散度...原创 2020-11-05 09:40:04 · 202 阅读 · 0 评论 -
深度学习基础----自编码器
监督学习与无监督学习 监督学习 训练集中有标签, 即输入的每个样本数据都有类别标签作为教师信号 无监督学习 没有教师信号, 系统通过学习数据内在结构形成”簇”或输入模式自然分组 欠完备自编码器 限制网络应藏层中的节点数 重构误差惩罚网络 编码学习和描述输入数据的潜在属性 作用: 降维 1.AE非线性降维方法 2.PCA线性降..原创 2020-11-05 09:06:30 · 354 阅读 · 0 评论 -
深度学习基础----循环神经网络
背景--传统前馈网络的短板 1.层与层之间连接, 每层之间无连接. 每层输入输出维数是固定的, 不能任意改变. 无法处理变长序列数据 2.假设每次输入都是独立的, 也就是说每次网络的输出只依赖于当前的输入 RNN的结构 各种类型的网络 更新状态 按时间展开 随时间的反向传播算法 向前传...原创 2020-11-05 09:02:43 · 951 阅读 · 0 评论 -
深度学习基础----卷积神经网络
提出 全链接网络需要的参数非常多 四个结构上的特性 局部不变性 像素与像素之间, 主要与其附近的像素有关, 与其距离较远的像素无关 统计平稳性 权重共享 平移不变性 对于物体的识别不依赖与它在图像中的位置 构成性 被识别的目标是由各个部分组成(池化, 下采样) 计算 特征图谱大小 .原创 2020-11-05 08:55:18 · 455 阅读 · 0 评论 -
深度学习基础----深度前馈网络
网络结构 前馈计算: 转存失败重新上传取消正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消转存失败重新上传取消 ...原创 2020-11-05 08:49:38 · 729 阅读 · 0 评论 -
深度学习基础----损失函数与最大似然
极大似然 分类模型就是求先验的概率. 极大似然即在某套参数下, 使得该先验概率的值最大. 为计算方便, 我们往往求的是负对数似然的最小值 损失函数的具体形式会随着建模数据的分布类型变化而变化 MSE和线性回归 1.假设数据服从高斯分布, 在所有数据上的似然就是单个点先验的连乘 2.通过最小化数据的负对数似然以最大化数据的似然函数 3.即发现实际需要最小化的是MSE 交叉熵和逻辑回归 1.在.原创 2020-11-05 08:43:33 · 1165 阅读 · 0 评论 -
深度学习基础----线性模型
线性回归 目的 试图学得一个线性模型以尽可能地预测实值输出标记(即学w,b) 形式/ 向量形式 均方差MSE的推导 梯度下降法: 理解: 需要选择学习率, 是迭代求解, 特征数m很大时不影响 最小二乘法: 理解: 不需要选择学习率, ...原创 2020-11-05 08:18:38 · 692 阅读 · 0 评论 -
深度学习基础----mAP和CMC,Recall和Precision,ROC和AUC,NDCG
就Re-ID的任务来说: 已知:一个在训练集上训练好的模型,一个query( 用于查询的集),一个gallery( 在其中搜索结果,或test) 求:mAP, CMCmAP:mean Average Precision针对:检索问题。是就query和gallery来讨论直述:每一张查询图片在查找集(query和gallery...原创 2019-08-20 15:37:42 · 3248 阅读 · 4 评论 -
深度学习基础----网络的发展
背景注意力机制最早用于NLP 能够从大量信息中筛选出重要信息实现概况注意力机制通常是一个额外的神经网络,能够给输入的不同部分分配权重 实现方法: 在空间维度引入 在通道维度引入 在空间维度引入在通道维度引入...原创 2020-10-21 21:57:13 · 605 阅读 · 0 评论 -
深度学习基础----CNN中channel的理解 + pooling的直观感受+(CNN其它相关)
输入层:图片通道数如:彩色图片RGB,三层卷积运算的要求: 通道一样卷积核的channel数与 需要卷积运算数据的channl一致卷积运算:内积 卷积核各通道 分别与 数据对应通道 内积 + 相加(即,会降维) 输出层通道数:核的个数上图运算后,会得到4×4×1的, 而如果有两个卷积核会得到4×4×2的参考博客:https://blog.youkuaiyun.com/sscc_learning...原创 2020-10-21 10:11:28 · 3280 阅读 · 0 评论 -
深度学习基础----Embedding(未完待续。。。)
直述:将离散变量转变为连续向量的方式作用:减少离散变量的维数 有意义地表示该变量应用:NLP word embedding 类别数据的entity embedding原创 2020-10-18 10:42:43 · 207 阅读 · 0 评论 -
深度学习基础----学习率衰减(持续待补...)
直述:随着时间,学习率加快代码:# Reduce learning rate when validation accuarcy plateau.scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode= max , patience=5, verbose=True)for t in range(0, 80): train(...); val(...) scheduler.step(val.原创 2020-10-17 08:21:37 · 331 阅读 · 0 评论 -
深度学习基础----梯度裁剪
背景:BP在产生的过程中:会产生梯度消失/梯度爆炸。 为了阻止这种情况发生优点与缺点:优点:简单粗暴 缺点:很难找到满意的阈值代码:torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=20)参考:https://www.cnblogs.com/lindaxin/p/7998196.html...原创 2020-10-16 22:08:22 · 745 阅读 · 0 评论 -
深度学习基础——正则化和优化
一.正则化与正规化正则化是正规化更加学术的表达(顾名思义,给模型加入某些规则,来达到某些目的。在机器学习和深度学习中是为了防止过拟合)二.过拟合的解决思路获取更多样本 丢弃一部分特征,增强模型的容错能力(如PCA降维,Dropout机制) 保留所有特征,但减少参数的大小。确保所有特征对于预测都有一定贡献,而不是”偏爱“几种特征。三 .L2正则化公式: (即:原本的损失...原创 2019-08-02 21:03:16 · 1333 阅读 · 0 评论 -
深度学习基础----标签平滑(后续待补,尤其是在论文中。。。。)
通俗理解:一定程度缩小label中min和max的差距 可以减小过拟合for images, labels in train_loader: images, labels = images.cuda(), labels.cuda() N = labels.size(0) # C is the number of classes. smoothed_labels = torch.full(size=(N, C), fill_value=0.1 / (C - 1)).c原创 2020-10-16 21:57:23 · 390 阅读 · 1 评论 -
深度学习基础——半监督
一篇国外大佬发文:国外大佬发文:让AI自己给数据加标签,然后把损失函数用相应的方式来表达:把自动加标签的噪音和可能的偏差都考虑进去。最近有两篇研究,都是这方面的例子:一是MixMatch: A Holistic Approach to Semi-Supervised LearningArxiv码:1905.02249二是Unsupervised Data Augmentatio...原创 2020-10-12 00:00:25 · 3202 阅读 · 0 评论 -
深度学习基础----自监督学习入门
见到的一个解释:自监督学习让我们能够没有大规模标注数据也能获得优质的表征,反而我们可以使用大量的未标注数据并且优化预定义的 pretext 任务。然后我们可以使用这些特性来学习缺乏数据的新任务。自监督学习的应用(任务----图像, 任务等):1.https://mp.weixin.qq.com/s?subscene=3&__biz=Mzg5ODAzMTkyMg==&mid=2247488297&idx=1&sn=9fe39fe524bc9aa90f90..原创 2020-10-11 23:54:50 · 3885 阅读 · 0 评论 -
深度学习基础----度量学习的损失函数
度量学习的损失函数(CV)解释度量学习 (Metric learning) 是广泛用于图像检索领域的一种方法 . 不同于表征学习 , 度量学习旨在通过网络学习出两张图片的相似度 .学习的对象通常是样本特征向量的距离,度量学习的目的是通过训练和学习,减小或限制同类样本之间的距离,同时增大不同类别样本之间的距离。最后通过最小化网络的度量损失 , 来寻找一个最优的映射 f (x). 而这个映射 f (x), 就是我们训练得到的深度卷积网络.常用度量学习损失方法首先 , 假如有两张...原创 2020-10-11 23:53:27 · 1954 阅读 · 0 评论 -
深度学习基础----残差网络
为什么要提出残差网络?深度网络不是越深越好。会出现梯度消失或者梯度爆炸,网络训练难度加大。 何凯明做了实验,浅层网络比深层网络的训练误差和测试误差都要小。梯度消失:反向传播的时候,越到前面(浅层网络),梯度越小。原因之一是sigmoid函数两边很平缓,即两边梯度衰减是很快的。残差干了啥?shortcut: 不经过权重和激活函数解释: x是前面模块的输出,F(x)是后面模块的输出。则下面一个模块的输入即是x+F(x),即模块输入之差是F(x)(即残差)真实的网络?即每两层之间原创 2020-10-04 18:54:42 · 616 阅读 · 0 评论 -
深度学习基础----线性回归,感知机,逻辑回归,softmax分类
线性回归回归问题当然是要学参数,形式是啥?原创 2020-10-11 22:00:15 · 317 阅读 · 0 评论 -
深度学习基础----贝叶斯概率+极大似然+损失函数+熵+梯度+反向传播:更新参数过程连贯地理解
一.目的更新参数, 以使模型优化二.方法BP算法: 1.分为向前传播 2.反向传播 3.参数更新三.具体过程1.向前传播: 计算每个神经元的输入和输出:2.反向传播: 计算每个神经元的delta:3.更新参数:利用向前传播存储的a, z计算每个神经元的delta4.训练: 即多次更新参数, 直至收敛...原创 2019-11-29 14:52:36 · 1715 阅读 · 2 评论 -
深度学习——深度生成模型(GAN,VAE)
一.GAN的基本要素 1.真实数据集,初始化虚假数据集(噪音) 2.生成器,鉴别器: 生成器: 输入:原始数据的维数(一条数据) 输出:原始数据的维数(一条数据) ...原创 2019-07-30 21:07:56 · 3900 阅读 · 0 评论 -
深度学习——元学习(持续补充, 立体地理解...)
一.直接理解作用:解决面对类别不同,模型泛化能力不强的问题 方法: meta training阶段:将数据集分成不同的meta task(即:假设有n个类别,每次取出其中的C个类别进行训练,每个类别K个样本——C-way K-shot problem) meta test阶段:面对全新的类别,不需要变动已有的模型就可完成训练。...原创 2019-07-31 10:03:15 · 7145 阅读 · 0 评论 -
深度学习——反卷积
一.上采样(Upsample)作用:小分辨率恢复到大分辨率方法:双线性插值(bilinear),反卷积(transposed convolution),反池化(Unpooling)二.反卷积易错辨析:反卷积不是卷积的反过成。它只恢复了大小,并未恢复内容。(一)从数学的层面理解卷积和反卷积 反卷积:(即输出乘以C的转置)(二)从常规CNN理解的角度理解...原创 2019-07-27 22:21:16 · 469 阅读 · 0 评论 -
深度学习——神经网络的种类(前馈神经网络,反馈神经网络,图网络)
了解名词,以防他人提起,自己不会~一.神经网络的分类前馈式网络,反馈式网络,图网络二.前馈网络(Feedforward Neural Network,FNN)输入:向量或向量序列包括:全连接前馈神经网络,卷积神经网络表示:有向无环图信息传播:朝着一个方向(反向传播和这个不是同一个概念)三.反馈网络输入:向量或向量序列包括:循环神经网络,Hopfieid网...原创 2019-07-28 10:31:18 · 13164 阅读 · 1 评论 -
深度学习——名词总结篇
1.Memory:我的出处:ECN。元学习时提及此方式。 原理:目标域的图片经网络题取出特征向量,存储到memory中;下一次新的即可和上次的做聚类; 公式:(其中是随着epoch不断线性增加的: PS:但为什么新特征的影响会越来越大?) 用处: 1.Domain Adaptation,用新提取出的特征向量和旧的做聚类,可使模型在目标域上的泛化能力增强 ...原创 2019-08-06 19:07:52 · 5544 阅读 · 2 评论 -
深度学习——目标检测,语义分割和实例分割的 RCNN, Fast RCNN, FasterRCNN+RPN, Mask RCNN(初步)
一.RCNN(Region-CNN)目标检测的奠基算法 步骤: Step1:提取候选区域 Step2:用CNN提取特征 Step3:用SVM分类 Step4:检测框回归提出原因:作者说HOG和SIFI提取特征已经过时了,CNN用来提取特征非常好 存在的疑问:结果有点歪...原创 2019-08-17 22:21:10 · 1593 阅读 · 0 评论