
深度学习
文章平均质量分 90
有为少年
一步步,一点点
展开
-
神经网络基础 | 给定条件下推导对应的卷积层参数
本文讨论了给定条件下卷积层参数的推导和代码。原创 2025-01-20 21:24:52 · 1179 阅读 · 0 评论 -
Transformer | 相对位置编码
相对位置编码现在已经被很多的视觉Transformer使用,也存在不同的实现形式。由于位置编码的本质就是将可学习变量或者是固定参数与特定的位置索引关联起来,所以实现的过程中会涉及到大量的坐标索引的变换,可读性很差。也因此不同形式的实现也存在着明显的差异。原创 2025-01-19 21:36:27 · 1041 阅读 · 0 评论 -
Hausdorff 距离
本文的内容主要围绕目标定位经典工作LocatingObjectsWithoutBoundingBoxes展开,着重于介绍HausdorffDistance相关的知识。原创 2025-01-18 13:21:50 · 1154 阅读 · 0 评论 -
Neuromorphic Computing | 基础知识
我们可以用充电、放电、重置,这 3 个离散方程来描述任意的离散脉冲神经元。原创 2025-01-15 14:35:18 · 1027 阅读 · 0 评论 -
ICLR 2024 - Spike-driven Transformer V2 - Meta Spiking Neural Network Architecture Inspiring the Des
具体来说,本文将 NeurIPS 2023 发表的第一版工作中的脉冲驱动的 Transformer 扩展为元架构,并探索了结构、脉冲驱动自注意力和跳跃连接对其性能的影响。原创 2024-08-16 17:28:14 · 1665 阅读 · 0 评论 -
ArXiv 2405 | Rethinking Scanning Strategies with Vision Mamba in SemSeg of Remote Sensing Imagery
这项研究对主流扫描方向及其组合对遥感图像语义分割的影响进行了全面的实验研究。通过在 LoveDA,ISPRS Potsdam 和 ISPRS Vaihingen 数据集上进行的广泛实验,我们证明,**无论其复杂性或所涉及的扫描方向数量如何,都没有单一的扫描策略能胜过其他扫描策略。简单的单个扫描方向被认为足以对高分辨率遥感图像进行语义分割。** 还建议了未来研究的相关方向。原创 2024-05-17 19:12:00 · 1153 阅读 · 2 评论 -
ICLR 2024 | FasterViT: Fast Vision Transformers with Hierarchical Attention
本文提出了一种 CNN 和 ViT 的混合架构,即 FasterViT。这样的混合架构可以快速生成高质量 token,然后基于 Transformer 块来进一步处理这些 token。其重点在于结合架构组合和高效的注意力模块的设计,从而优化 ViT 模型的计算效率,提高图像的吞吐率,加强对于高分辨率图像的适应能力。原创 2024-05-17 17:22:29 · 1694 阅读 · 0 评论 -
ICCV 2021 | FcaNet: Frequency Channel Attention Networks 中的频率分析
文章是围绕 2D 的 DCT 进行展开的,本文针对具体的计算逻辑进行梳理和解析。原创 2024-04-27 10:48:53 · 1347 阅读 · 0 评论 -
CVPR 2024 - Rethinking the Evaluation Protocol of Domain Generalization
这篇文章主要讨论了领域泛化评估协议的重新思考,特别是如何处理可能存在的测试数据信息泄露风险。作者首先指出,当前的领域泛化评估协议可能存在问题,可能导致测试数据信息泄露,进而影响评估的公平性和准确性。作者还根据这些建议重新评估了十个代表性的领域泛化算法,并提供了三个新的测试leaderboard。这些更改和新的测试leaderboard的板将鼓励未来的研究,并促进领域泛化的更准确评估。原创 2024-04-14 12:45:08 · 454 阅读 · 0 评论 -
CVPR 2024 | Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator
本文提出了高效的 DCNv4,这是一个专为视觉应用设计的高效有效的运算符。将 DCNv4 集成到其他现代骨干架构中,包括 ConvNeXt 和 ViT,替换深度可分离卷积和密集自注意力层。值得注意的是,在没有进行任何超参数调整的情况下,这些经过精心设计的网络在使用 DCNv4 时表现得相当出色,同时速度快得多,显示了动态、稀疏的 DCNv4 的有效性和效率。这些改进使得 DCNv4 与 DCNv3 相比显示出显著更快的收敛速度,并且处理速度大大提高,DCNv4 的速度提高了三倍以上。原创 2024-04-14 12:42:24 · 987 阅读 · 0 评论 -
CVPR 2024 | Retrieval-Augmented Open-Vocabulary Object Detection
RALF 通过从大型词汇库中检索词汇并增强损失函数和视觉特征来提高检测器对新类别的泛化能力。通过实验,作者证明了 RALF 在 COCO 和 LVIS 基准数据集上的有效性。特别是在 COCO 数据集的新类别上,APN50 提高了 3.4%,在 LVIS 数据集的新类别上,mask APr 提高了 3.6%。原创 2024-04-12 13:35:32 · 824 阅读 · 0 评论 -
CVPR 2024 | SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation
这篇文章提出了一种名为 SED 的简单编码器解码器,用于结合 CLIP 的 open-vocabulary 能力实现了开放词汇语义分割。在多个语义分割数据集上的实验证明了 SED 在开放词汇准确性和效率方面的优势。当使用 ConvNeXt-B 时,SED 在 ADE20K 上的 mIoU 得分为 31.6%,并且在单个 A6000 上每张图像只需 82 毫秒。原创 2024-04-12 13:32:07 · 2189 阅读 · 0 评论 -
CVPR 2024 | Rethinking Interactive Image Segmentationwith Low Latency, High Quality, and Diverse Pro
现有的专家模型和通用模型在实现低延迟、高质量的交互式分割以及支持多种提示方面存在困难。研究人员提出了一种名为 SegNext 的方法,它重新引入了专家模型中常用的密集视觉提示的表示和融合方式,以促进高质量的分割。是实现高质量分割的关键设计选择。与现有的专家模型相比,该方法能够在保持低延迟的同时实现更好的分割效果。相比之下,本文提出的方法通过引入密集的视觉提示和优化模型结构,实现了低延时和高性能的图像分割效果。这篇文章主要研究了如何在保持低延迟的同时提高交互式图像分割的质量,并实现多种提示的兼容性。原创 2024-04-11 13:02:15 · 695 阅读 · 0 评论 -
CVPR 2024 | Open-Vocabulary Video Anomaly Detection
这篇文章主要研究了开放词汇视频异常检测(openvocabulary video anomaly detection,OVVAD)的问题,这是一个具有挑战性但实际重要的问题。实验结果表明,该模型在三个公开基准 UBnormal,UCF-Crime,XD-Violence 上优于现有方法,特别是在处理新类别时表现出明显的优势。利用语言图像预训练模型,如 CLIP 作为基础,得益于其强大的零样本泛化能力。,以更好地处理开放词汇视频异常检测问题。并引入了几个专用模块来促进对基线和新异常的检测。原创 2024-04-11 12:59:57 · 1655 阅读 · 0 评论 -
CVPR 2024 | OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual
在整合视觉语言模型 CLIP 的基础上,为了处理食物配料视觉表征中大的类内方差,该方法集成了两个创新模块,即图像到文本学习器 FoodLearner 和图像感知的文本编码器 Image-Informed Text Encoder,丰富了文本嵌入与图像特定的信息,从而有效地将知识从已知的食材转移到新的食材。通过在大规模食品相关图像文本对数据集上预训练 FoodLearner,OVFoodSeg 成功地将视觉信息与文本表示紧密地联系起来,从而有效地解决了食材图像分割中的大类内变化问题。原创 2024-04-11 12:56:53 · 938 阅读 · 0 评论 -
Arixv 2403 | Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey
在当前以大型模型和大型数据集为主导的时代,PEFT 作为一种非常有吸引力的方法脱颖而出,可以有效地使模型适应下游任务。该技术通过解决传统全模型微调带来的重大挑战而获得吸引力,传统全模型微调通常对普通用户提出难以满足的计算和数据需求。PEFT 的有效性通常对其超参数敏感,例如适配器瓶颈尺寸、LoRA 秩以及不同附加性 PEFT 层的放置。手动调整这些超参数将花费大量精力。因此,未来的努力可以集中在开发更少依赖手动调整这些参数的方法,或者自动找到最佳的超参数设置。原创 2024-04-02 17:09:00 · 1253 阅读 · 0 评论 -
Arxiv 2403 | DenseNets Reloaded Paradigm Shift Beyond ResNets and ViTs
ResNet 中引入了加法连接实现的残差学习。这改变了游戏规则,通过确保输入梯度始终保持为恒等映射导数来减少梯度消失问题。这主导了近些年神经网络架构设计的发展,包括卷积神经网络和最近的 Vision Transformer。在残差学习主导的这一时期的早期阶段,DenseNet 引入了一种新颖的方法:通过特征拼接而不是使用加法连接。这引入了特征重用的概念,允许更紧凑的模型,并通过显式监督传播到早期的层来减少过拟合。原创 2024-03-30 12:57:09 · 1333 阅读 · 0 评论 -
ICLR 2024 | FeatUp: A Model-Agnostic Framework for Features at Any Resolution
与 NeRF 通过在场景的许多 2D 照片之间强制一致性来构建 3D 场景的隐式表示一样,FeatUp 通过在许多低分辨率特征图之间强制一致性来构建上采样器,即认为低分辨率信号的多视图一致性可以监督高分辨率信号的构建。文中的实验表明,FeatUp 在类激活图生成、分割和深度预测的迁移学习以及语义分割的端到端训练方面显着优于其他特征上采样和图像超分辨率方法。在这两种上采样架构的特征可以在下游应用中直接替换使用,因为所提方法不会转换底层特征的语义,即使无需重新训练也能获得分辨率和性能提升。原创 2024-03-29 17:05:55 · 2631 阅读 · 2 评论 -
ECCV 2022 | Learning Implicit Feature Alignment Function for Semantic Segmentation概述与代码分析
基于隐神经表示设计了一种隐式特征对齐函数,来替换现有的基于插值的不同分辨率特征对齐方案。可以更加方便和高效的对齐多个不同分辨率的特征。原创 2023-07-27 09:00:00 · 964 阅读 · 0 评论 -
CVPR 2023 | ODISE: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models
训练在大规模互联网数据的基于扩散的生成模型在视觉表征上优势明显。本文基于预训练Stable Diffusion和CLIP一同构建了开放词汇的全景分割模型。原创 2023-07-26 14:54:15 · 2119 阅读 · 0 评论 -
Arxiv 2307 | Retentive Network: A Successor to Transformer for Large Language Models
本文从序列建模的角度,构建了一种类似Transformer且更加高效的结构。在语言任务上展现出了良好的效率和性能。原创 2023-07-19 19:20:08 · 2045 阅读 · 0 评论 -
CVPR 2023 | OVSeg: Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
预训练的 CLIP 无法对 masked image 执行令人满意的分类,这是两阶段开放词汇分割模型的性能瓶颈。本文认为这是由于蒙面图像和 CLIP 的训练图像之间的显著域差距造成的。所以需要对 CLIP 进行微调原创 2023-07-12 17:20:00 · 1985 阅读 · 0 评论 -
Arxiv 2305 | Refocusing Is Key to Transfer Learning
本文提出的TOAST强调的是在预训练模型迁移过程中进一步强化目标任务相关的注意力信息是很重要的。Transformer 模型通常是自下而上的,即其注意力仅取决于输入,因此,它通常突出输入信号中的所有显着特征。与自底而上的注意力相反,由顶而下的注意力赋予了根据高级目标或任务调整注意力的能力,即它只关注与任务相关的特征而忽略其他特征。原创 2023-07-10 18:59:38 · 875 阅读 · 0 评论 -
CVPR 2023 | SAN: Side Adapter Network for Open-Vocabulary Semantic Segmentation
基于CLIP构建开放词汇语义分割模型。原创 2023-06-30 11:37:15 · 2873 阅读 · 0 评论 -
CVPR 2023 | Making Vision Transformers Efficient from A Token Sparsification View
CVPR 2023,基于token稀疏化的transformer高效模型。原创 2023-06-15 14:02:23 · 1894 阅读 · 0 评论 -
CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation
基于图像文本匹配的cost volume细化与预测分割。原创 2023-06-07 11:04:21 · 2606 阅读 · 0 评论 -
CVPR 2023 | EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
EfficientViT,推理更快的ViT。原创 2023-05-15 17:11:23 · 14045 阅读 · 1 评论 -
CVPR 2023 | Reliability in Semantic Segmentation: Are We on the Right Track?
最近计算机视觉由于Transformer获得了急速的发展,虽然域内性能有着上升趋势,但对鲁棒性或不确定性估计等特性的探索较少,这使人们对模型可靠性方面的进步水平产生了怀疑。现有一些工作虽然对此有所探索,但是主要集中在分类模型。这份工作在语义分割中开展了相关的探究,横跨了较旧的基于ResNet的架构到较新的Transformer架构:发现了尽管最近的模型更加鲁棒,但在不确定性估计上总体并未更可靠;探索了可以挽救的方法,并表明提升calibration也可以帮助其他不确定性指标,如misclassificati原创 2023-04-25 16:50:00 · 1616 阅读 · 0 评论 -
CVPR 2023 | Texture-guided Saliency Distilling for Unsupervised Salient Object Detection
无监督显著性目标检测任务的常用策略是伪标签手段. 伪标签中会存在大量的噪声. 如何处理带噪标签是无监督显著性目标检测任务工作的一大重点. 现有方法专注利用有着更加可靠标签的容易样本, 但是忽略了难样本中有价值的知识. 这篇文章中关注与同时挖掘难易样本中的显著性知识.原创 2023-04-20 16:07:33 · 2735 阅读 · 5 评论 -
CVPR 2023 | FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation
Open Vocabulary 学习范式将分割系统推广到更通用的应用场景. 现有的定制化的设计范式导致各种分割任务之间的碎片化, 从而阻碍了分割模型的统一性.所以本文基于one-shot训练的形式, 提出了一种统一参数和结构的通用模型用于处理 Open Vocabulary 分割任务.并引入了prompt来统一不同的任务和类别概念, 以适应不同的任务和场景.原创 2023-04-14 17:18:30 · 2808 阅读 · 3 评论 -
ECCV 2022 | MaskCLIP: Extract Free Dense Labels from CLIP
以往的研究主要是利用CLIP特征作为一种全局图像表示,本文主要探索预训练的CLIP模型对于像素级预测任务的潜在优势。原创 2023-04-14 16:55:07 · 3028 阅读 · 3 评论 -
CVPR | Generative Semantic Segmentation
使用生成方法建立的图像分割模型原创 2023-04-06 14:33:21 · 2567 阅读 · 3 评论 -
BN、CBN、CmBN 的对比与总结
对BN、CBN和CmBN的一个简单记录。原创 2022-11-24 20:37:40 · 5097 阅读 · 4 评论 -
各种 Dice Loss 变体
Dice Loss也是图像分割任务中非常常见的一个损失函数。本文基于 [Generalised Wasserstein Dice Score for Imbalanced Multi-class Segmentation using Holistic Convolutional Networks](https://arxiv.org/abs/1707.00478) 中的内容进行了整理。原创 2022-10-29 11:49:41 · 2781 阅读 · 0 评论 -
各种 IoU 损失变体-GIoU、DIoU、CIoU、EIoU、α-IoU、SIoU、MPDIoU、Inner/Shape/Focaler-IoU...
IoU损失及其各种变体已经在密集预测任务中展现出了优异的效果。这里做一个简单的罗列与梳理。原创 2022-10-24 21:35:01 · 4036 阅读 · 0 评论 -
ECCV 2022 | RGB图像引导下的基于轻量ToF传感器的深度估计
文章提出了一种深度估计任务。其主要针对轻量级ToF传感器采集的深度分布数据,在RGB图像的引导下,获得准确的高分辨率深度图,并为此提供了一个数据集。提出的模型获得了更加准确的深度补全和深度超分辨的效果。并实现了与商用级别的RGB-D传感器相当的性能。原创 2022-10-02 22:02:37 · 3730 阅读 · 0 评论 -
CVPR 2022 | NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation
这篇文章将全局全连接CRF使用Attention进行了改造,并使用了基于窗偏移的计算过程实现了更低的计算量。提出的结构被用于单目深度估计任务模型的构建中。原创 2022-09-30 17:56:26 · 4029 阅读 · 9 评论 -
ICCV 2021 Oral | CoaT: Co-Scale Conv-Attentional Image Transformers
设计了一种简化的线性注意力机制,并引入了卷积相对位置编码。基于这些构建了一个包含多尺度特征交互的架构。原创 2022-09-24 12:46:28 · 1570 阅读 · 0 评论 -
CVPR2022 | MPViT: Multi-Path Vision Transformer for Dense Prediction
本文重点探究Transformer中的multi-scale patch embedding和multi-path structure scheme的设计。原创 2022-09-22 12:53:12 · 2229 阅读 · 0 评论 -
CVPR 2022 Oral | MAXIM: Multi-Axis MLP for Image Processing
这是一篇在底层视觉任务上构建更有效的局部+全局交互策略的文章,再多个任务上实现了良好的效果。原创 2022-09-19 12:58:18 · 3747 阅读 · 3 评论