
算法学习
文章平均质量分 95
本专栏收录了笔者所有记录的论文算法笔记,内容领域比较杂
视觉萌新、
博客专家认证、人工智能领域优质创作者,曾经研究过图像增强、目标检测、细粒度分类以及域适应等计算机视觉方向,目前在研究具身智能相关的方向。
展开
-
【扩散模型】算法笔记:GDP——首个统一图像恢复与增强的算法Generative Diffusion Prior for Unified Image Restoration and Enhancem
论文题目:《Generative Diffusion Prior for Unified Image Restoration and Enhancement》在本文中,作者提出了用于图像恢复和增强的GDP算法,利用训练好的扩散模型(DDPM)作为通用图像恢复和增强的有效先验,使用退化的图像作为指导。作为一个统一的图像恢复框架,GDP不仅适用于各种线性逆问题,而且第一次推广到非线性、盲目的图像恢复和增强任务。原创 2024-12-22 17:31:58 · 1848 阅读 · 0 评论 -
【扩散模型】通过最简单的代码案例掌握扩散模型的算法流程
扩散模型主要包括前向过程(不断往输入数据中添加噪声)和后向过程(对加噪图像执行去噪、恢复目的)。前向过程前向过程不断添加噪声,随着采样步的增加,噪声占比不断增加,反向过程逐步实现去噪目的,从而恢复图像数据。本文通过最简单的代码案例来学习扩散模型的算法流程。原创 2024-12-22 13:11:26 · 1198 阅读 · 0 评论 -
【万字解析,超详细!】BEVFormer——首篇使用纯视觉算法实现BEV感知的文章(自动驾驶入门必看)
BEV特征是连接时间和空间的理想桥梁,这也是自动驾驶任务中使用BEV特征执行感知任务的另一个动机。对于人类的视觉感知系统而言,时间信息在推理物体的运动状态和识别被遮挡的物体方面起着至关重要的作用,许多视觉领域的工作已经证明了使用视频数据的有效性。然而,现有基于多摄像头的3D目标检测算法很少利用时间信息,在自动驾驶任务中,场景物体变化很快,简单地叠加跨时间戳的BEV特征会带来额外的计算成本和干扰信息。受递归神经网络(RNN)的启发,作者利用BEV特征递归地传递从过去到现在的时间信息原创 2024-12-21 21:40:21 · 2645 阅读 · 0 评论 -
【算法学习、超详细】Deformable DETR:可变形注意力机制——DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION
论文题目:《DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION》在本文中,作者提出了可变形注意力机制,将transformer的计算度压缩为线性复杂度,在降低DETR推理速度、加速模型收敛的同时引入了多尺度信息,极大地提升了DETR目标检测算法的性能。原创 2024-02-21 16:03:30 · 4402 阅读 · 0 评论 -
【算法学习】Partial Convolutions:局部卷积——Image Inpainting for Irregular Holes Using Partial Convolutions
局部卷积:Partial Convolutions论文笔记——Image Inpainting for Irregular Holes Using Partial Convolutions原创 2023-06-24 15:54:53 · 1805 阅读 · 0 评论 -
显著性采样算法学习——Learning to Zoom: a Saliency-Based Sampling Layer for Neural Networks
论文《Learning to Zoom: a Saliency-Based Sampling Layer for Neural Networks》笔记原创 2023-06-24 15:47:49 · 431 阅读 · 1 评论 -
物体定位:Grad-CAM算法学习——Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
论文《Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization》算法学习Grad-CAM的全称为梯度加权的类别响应图(Gradient-weighted Class Activation Mapping),常用于物体定位,适用于图像分类模型、图像描述模型(image captioning)以及可视化问答系统(visual question answering)等等原创 2023-06-24 15:52:29 · 668 阅读 · 1 评论 -
【HDR算法学习】HDR-Transformer——Ghost-free High Dynamic Range Imaging with Context-aware Transformer
在本文中,作者提出了一种双分支上下文感知Transformer,通过加入局部特征提取器(即引入卷积操作)来克服传统ViT在局部建模上的不足,扩展了标准的ViT模块,可以实现全局和局部上下文的同时建模。此外,基于所设计的CA-ViT模块,作者提出了用于HDR成像的HDR-Transformer网络,通过结合Transformer和CNN的优点,来有效地缓解HDR成像过程中容易产生重影的问题。原创 2023-08-09 09:50:58 · 1600 阅读 · 3 评论 -
【算法学习】FPN:特征金字塔——Feature Pyramid Networks for Object Detection
特征金字塔:FPN论文笔记——Feature Pyramid Networks for Object Detection原创 2023-06-25 10:44:28 · 1393 阅读 · 1 评论 -
【算法学习】Focal Loss焦点损失——Focal Loss for Dense Object Detection
焦点损失:Focal Loss论文笔记——Focal Loss for Dense Object Detection焦点损失(Focal Loss)是一种改进的交叉熵损失,旨在解决类别不平衡问题,尤其是在目标检测任务中。它通过引入一个调节因子,减少易分类样本的损失贡献,增强模型对难分类样本的关注。焦点损失的核心是通过添加一个参数γ(γ ≥ 0),使得当样本容易分类时,损失值较小;而对于难分类样本,损失值则较大,从而引导模型更加关注稀有或难分类的类别。该方法有效缓解了类别不平衡带来的训练困难。原创 2023-06-25 10:46:51 · 2549 阅读 · 1 评论 -
【算法学习】NL:非局部注意力——Non-local Neural Networks
非局部注意力:NL论文笔记——Non-local Neural Networks非局部注意力网络(Non-local Attention Network)是一种深度学习模型,旨在捕捉全局上下文信息,与传统的卷积神经网络(CNN)不同,后者通常只关注局部区域的特征。非局部注意力通过计算所有位置之间的相似度关系来提取全局信息,从而在空间上实现长距离依赖的建模。这种方式能够有效捕捉图像中远距离像素之间的关系,对于处理具有复杂上下文信息的任务,如视频分析、图像分割和目标检测等,具有显著的优势。原创 2023-06-25 10:48:13 · 1855 阅读 · 1 评论 -
【算法及源码学习】Swin Transformer——Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
论文及代码笔记:Swin Transformer——Swin Transformer: Hierarchical Vision Transformer using Shifted Windows视觉中常常涉及多尺度问题,需要模型可以捕捉图像上多个尺度的信息(如目标检测中的大物体和小物体),而ViT算法尺度单一,与最初Patch的划分方法有关,因此ViT算法欠缺获取多尺度信息的能力;ViT算法在计算注意力时,是在全局的图像位置上计算注意力,因此计算复杂度较高,计算量随图像尺寸的增加呈平方速度增加。原创 2023-08-09 09:26:59 · 613 阅读 · 0 评论 -
【算法及源码学习】Transformer——Attention Is All You Need
Transformer论文及源码笔记——Attention Is All You NeedTransformer结构优点:长程依赖性处理能力强:自注意力机制可以实现对整张图片进行全局信息的建模;并行化能力强:可以并行计算输入序列中的所有位置;原创 2023-08-09 10:07:21 · 652 阅读 · 0 评论 -
【算法学习】ViT Adapter——Transformer与CNN特征融合,屠榜语义分割!
论文题目:《VISION TRANSFORMER ADAPTER FOR DENSE PREDICTIONS》本工作主要针对普通ViT缺少视觉特定的归纳偏置问题做改进,设计了ViT-Adapter模块,利用交叉注意力,充分将CNN中局部空间建模的能力融入到ViT模型中,在**保持原有ViT架构不变,即ViT语义特征不减弱的情况下,灵活地将图像相关的归纳偏置注入到ViT模型中**,重构密集预测任务所需要的细粒度多尺度特征,最终实现下游任务良好的应用。原创 2024-02-04 22:37:49 · 5205 阅读 · 0 评论 -
【算法学习】DETR-目标检测新范式——基于Transformers的端到端目标检测器
论文题目:《End-to-End Object Detection with Transformers》传统的目标检测都不是端到端的检测方法(例如Faster R-CNN,YOLOv3等等),网络的输出较多,需要再利用NMS运算过滤重叠率较高的边界框,解决冗余问题,并且基于锚点的算法还需要根据具体任务来预设锚点,实施起来比较麻烦。本文提出了一种新的目标检测网络架构,可以实现端到端运算,网络输出的结果就是最终的预测结果,不需要额外的运算。原创 2024-02-21 11:42:38 · 1716 阅读 · 0 评论 -
【算法学习、超详细】DINO用于视觉自监督学习的知识蒸馏算法——Emerging Properties in Self-Supervised Vision Transformers
论文题目:《Emerging Properties in Self-Supervised Vision Transformers》|作者利用知识蒸馏和动量更新策略实现了ViT模型在视觉任务上的自监督训练,通过摆脱标签的约束,充分挖掘了ViT算法的特征表示潜力。利用自监督学习的ViT特征明确包含了场景布局,特别是对象边界,这些关注区域可以在最后一个自注意力关注模块中直接提取,同时,自监督ViT网络所提取的特征在基本近邻分类器k-NN下表现特别好,无需任何微调就可以在ImageNet上达到78.3%的准确率。原创 2024-02-21 11:57:12 · 2945 阅读 · 1 评论