- 博客(25)
- 收藏
- 关注

原创 变分推理ELBO详解
但是因为p(x)作为边缘概率因为是联合概率积分且很难直接计算所以非常的棘手。可以直接通过求导来计算出最大化ELBO因为最终参数只有。可以理解为所观测到图片的类别等无法直接观测获得的隐藏变量。, 这里的例子较为简单,但是实际情况是无法计算出解析解的。求联合概率p(x,z)替代后验概率。所以可以大致推导出后验概率的趋势。: 在真实样本概率分布的条件下的。可以理解为观测到的图片样本。通过贝叶斯定理求后验概率。
2023-12-18 21:37:45
1833

原创 扩散模型(diffusion model)快速理解
笔者最近学习多模态相关的论文,有些基础知识和模型再论文或者其他的文章中都体现的很复杂。但是台大李宏毅教授对这些知识的解释都很通俗,且非常清晰,因此这文章的是以他的视频为基础解释的。因为需要预测每张图片所对应的噪音,让噪音图片减去噪音来实现去噪才是模型训练的最终目的。前向传播的过程通过生成的噪音通过马尔科夫链给原始图片加噪,相当于是在。逆向传播的过程相当于借助训练好的模型。类似于形成语言和声音的模型,通过在。最终,连续进行逆向传播得到无噪声图片。,更加接近人类的视觉和表达。
2023-12-13 18:19:42
957
1
原创 手撸AI-4: Accelerate库分布式训练详解
Accelerate是 Hugging Face 公司开发的一个 Python 库,旨在简化并优化在各种环境中进行深度学习训练的过程,包括单机、多 GPU、TPU 和各种分布式训练环境。这个库提供了一种通用的 API,可以方便地将原来只能在单个设备上运行的代码扩展到多设备和分布式环境。在平常我们阅读源码或者编写训练流程的时候acceletate尤为重要.官方文档和教程。
2024-03-02 16:52:49
3473
1
原创 手撸AI-3: 设置脚本参数与设置随机种子
在完整的模型训练代码中,我们时常能看到通过python train.py --params 来训练模型,这也是在无UI界面的服务器上训练模型最主要的方法,因此使用脚本并设置脚本参数尤为重要.
2024-03-02 14:14:22
606
原创 手撸AI-2:参数迁移代码实现
对于迁移学习来说,我们经常需要训练一个完整的模型后将其中的部分模块取出用做其他模型进行微调,所以对于参数和模型结构的保存和迁移也至关重要。
2024-03-01 22:20:30
471
原创 手撸AI-1:构建Dataset&Dataloader,搭建模型训练基础架构
该方法需返回所需的数据,返回的数据相当于Dataset的一个实例。当样本数不能被batchsize整除时, 是否舍弃最后一批数据。进行新一轮epoch时是否要重新洗牌,Boolean型。返回数据集实例的数量,也就是数据集的大小。需要提取数据的数据集,Dataset对象。需设置一些其他方法所需的属性,如。每一次装载样本的个数,int型。通过创建实例输入实例属性,如。参数index一般用于。
2024-02-26 22:56:00
573
原创 VMLoc模型解读和原理分析
论文地址:论文摘要:以前的深度融合方法并不比使用单一模态的模型表现得更好。我们推测这是由于通过求和或连接进行特征空间融合的幼稚方法,没有考虑到每个模态的不同强度。为了解决这个问题,我们提出了一个端到端框架,称为VMLoc,通过变化的Product- of-Experts (PoE)和基于注意力的融合将不同的传感器输入融合到一个共同的潜在空间。不同于以往的多模态变分工作直接适应vanilla变分自动编码器的目标函数,我们展示了如何通过一个基于重要性加权的无偏目标函数准确估计摄像机的定位。
2023-12-24 15:52:24
1529
1
原创 POE在多模态融合方面的应用
最大化的意义就是让概率模型对于现存样本预测的总概率值最大化,换句话说,现在发生了某一事件,可以认为,这个时间是理论上概率最大的那个时间。然后,这个新的概率分布被用来将不同的传感器输入融合到一个共享的潜在空间,从而实现多模态传感器数据的融合。最终,PoE模型通过将所有"专家"的输出(即它们的概率密度函数)相乘,生成一个新的概率分布。这里的点积对应了所有样本集的概率密度模型相乘, 参数。因为直接从样本计算的均值和方差反映了样本数据的实际情况,而通过最大似然估计反应了最有可能生成这些样本数据的概率模型的参数。
2023-12-15 14:35:31
1055
原创 RINCE ------- 对比损失(InfoNCE)升级版
对比学习依赖于一个假设,即正对包含相关视图,例如,图像的补丁或视频的多模态信号,它们共享有关实例的某些基础信息。但是,如果这个假设被违反呢?文献表明,对比学习在存在嘈杂视图的情况下会产生次优表征,例如,没有明显共享信息的假阳性对。在这项工作中,我们提出了一种新的对比损失函数,该函数对嘈杂的视图具有鲁棒性。我们通过显示与噪声二元分类的鲁棒对称损失的联系,以及通过基于Wasserstein距离测量的互信息最大化建立新的对比界,提供了严格的理论论证。
2023-12-14 19:17:14
2371
1
原创 图像相似度和结构性损失函数
结构相似指标可以衡量图片的失真程度,也可以衡量两张图片的相似程度。与MSE和PSNR衡量绝对误差不同,SSIM是感知模型,即更符合人眼的直观感受。取每一像素周边的8个像素点及其自身,flatten成一维向量进行计算相似度损失函数。(计算步骤较为复杂,可自行查阅资料)图像间结构性损失函数。
2023-12-12 17:24:25
764
1
原创 对于SVM和核函数的简单理解
采取核函数的方式 来替换公式中的Xi和Xj,而核函数K即为这两个带入函数值的内积(为了方便计算)通过最下面的唯一一组公式便可求出分类函数。
2023-12-11 16:50:49
424
1
原创 全局对比损失(GC)& 局部对比损失(LC)
这种方法被称为“本地对比”,因为所有的计算和反向传播都在本地GPU上进行,而不涉及其他GPU。这与“全局对比”方法形成对比,后者会在所有的GPU上进行反向传播。的训练中与只在本地进行反向传播相比,
2023-12-10 00:18:01
750
1
原创 Masked Multimodal Modeling (MMM) 模型解读
Masked multimodal modeling (MMM)是一种在多模态模型中使用的一种掩码(Mask)学习多模态表示的预训练目标。MMM的主要思想是在图像和文本上进行联合掩码,并预测被掩码的目标。
2023-12-09 23:45:46
2258
原创 为什么DL论文计算损失时有时候采用交叉熵有时候采用相对熵?
当在计算与真实标签的损失时我们往往采用交叉熵的方式,因为这个时候真实标签所代表的真实概率应该是常数,所以我们。而在知识蒸馏中,因为。
2023-12-09 15:33:38
375
原创 CMPC: Cross-modal Prototype Contrast (跨模态原型对比)解读
Cross-modal Prototype Contrast (跨模态原型对比,简称CMPC)是一种无监督的声音-面部图像表示学习方法。这种方法利用对比学习来抵抗假阴性和偏离正性的不利影响。假阴性: 指的是在不同视频中同一个人的人脸被错误地分到不同的类别中,即对比学习中的负样本偏离正性:指的是在不同视频中不同人的人脸被错误地分到同一个类别中,即对比学习中的正样本。
2023-12-08 22:11:07
1227
原创 OGM-GE(动态梯度调制&泛化增强)
1. 该模型的初始阶段不如正常模型,因为降低了学习率2. 虽然通过OGM关联多模态之间的学习情况,最终仍然存在差异。
2023-12-08 14:10:17
920
原创 Topic-image Lookup Table Conversion(主题-图像查找表转换)
在图像库中查询对应关键字, 选取所有查询的库中出现次数(频率)最高的图片作为文本对应图片。只要图片中有出现某关键字,就把该图片纳入关键字组成的索引库中。提取corpus中图片-文本对的关键词。
2023-12-07 21:26:57
415
原创 快速读懂PCA(主成分分析法)
使用协方差矩阵的特征向量形成的特征值,将数据从原始轴重新定向到主成分表示的轴。PCA作为传统机器学习所使用的方法,具有降维的作用,即。个特 征值对应的特征向量,我们将方差较小的特征维度(噪声)抛弃。把矩阵中的样本的特征放到提取出的特征维度。提取出多样本多维矩阵成分较重的特征维。,去除成分较轻的维度,最终。,图中x,y,z均为样本,
2023-12-07 14:54:24
653
原创 图像识别必备模块ImageFolder使用解析与实战
读取data_dir/x文件夹下对应的图片并经过data_transforms的转换1。
2023-12-06 23:22:55
1642
1
原创 Cuda配置3步到位
虽然现实的cuda是11.8版本,我们只需要把cu118 改成自己对应的版本,比如作者的版本是11.1,所以改命令为cu111即可。图中可见cuda版本为11.1。结果显示,3步配置成功!
2023-12-06 15:00:22
430
1
原创 软注意力和硬注意力的相关概念与图例
现在大家基本都很了解self-attention(自注意力机制),对于注意力以及软注意力和硬注意力(Soft&Hard Attention)知之甚少,网上的视频解释和图像解释也比较少。这里作者根据一篇博客解释一下相关概念,详情可见原文。
2023-12-03 23:13:37
927
1
原创 关于Couldn‘t find MySQL server (/usr/local/mysql/bin/mysqld_safe)
只需更改它的执行权限即可。当你发现文件存在且路径正确的时候,只是因为这个文件没有执行权限。
2023-09-24 21:42:19
525
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人