Leo Chaw-优快云博客

原创闲聊B站唐宇迪

在B站上找关于深度学习/人工智能的视频时，全是唐宇迪这个 ** 的视频，也许他有点水平。但是就像 ** 一样，霸占了B站的人工智能区，是真的恶心人。

2025-08-08 14:36:18 256

原创 33 - STVit模块

论文《Vision Transformer with Super Token Sampling》

2025-07-19 15:11:32 195

CCNet通过其创新的循环注意力机制（Criss-Cross Attention），在每个像素位置上聚集来自其水平和垂直路径上所有像素的上下文信息。CCNet旨在通过一种新颖的循环注意力机制，捕获全局上下文信息，以提高语义分割任务的性能。与传统的采用密集连接方式捕获全局上下文信息的网络相比，CCNet通过其循环注意力机制大幅降低了计算复杂度和内存消耗。为了进一步增强特征的上下文依赖性，CCNet将循环注意力机制应用多次，通过迭代方式逐渐聚集更广泛的上下文信息。### 3、独特优势。

2025-07-19 13:19:32 243

原创 49 - AKConv卷积模块

通过允许不规则的卷积操作和动态调整样本形状的灵活性，AKConv为卷积采样形状的探索提供了更多选项。这种方法使得可以创建具有任意采样形状和大小的卷积核，超越了标准卷积的固定正方形形状限制。AKConv使卷积参数的数量可以与卷积核的大小线性增长，与标准卷积和可变形卷积的平方增长趋势形成对比。与受固定形状和大小限制的标准卷积操作不同，AKConv允许具有任意参数和形状的卷积核，提供了针对不同数据集和目标变化的定制化方法。1、**灵活性和适应性：**2、**线性参数增长：**4、**即插即用：**

2025-07-19 13:18:48 186

原创 48 - GNConv卷积模块

融合模块将全局上下文特征添加到每个位置的特征上，从而加强了原始特征。3、**广泛适用性：** GCNet在多个基准数据集和不同的视觉识别任务上都表现出了优异的性能，包括对象检测/分割、图像分类和动作识别等，证明了其鲁棒性和广泛适用性。1、**轻量级设计：** GCNet通过采用全局注意力池化和两层瓶颈结构，使得模型既轻量级又有效，适合多层次集成，几乎不增加额外的计算复杂度。2、**有效建模全局上下文：** GCNet有效捕捉图像或视频中的长距离依赖关系，有助于提高模型对整体场景的理解能力。

2025-07-19 13:17:35 289

原创 47 - Non-local Neural模块

非局部操作通过在输入特征图的所有位置上计算响应的加权和来实现，其中权重由位置之间的关系（如相似性）确定。尽管能够处理长距离依赖，但非局部模型在只有几层的情况下即可达到最佳效果，例如，在视频分类任务中，即使没有任何额外技巧，非局部模型也能与当前的竞争者相抗衡或超越。与重复应用局部操作（如卷积和递归操作）逐渐传递信号不同，非局部操作可以直接处理任意两个位置间的相互作用，无论它们的位置距离有多远。### 3、**独特优势**### 1、**作用**### 2、**机制**

2025-07-19 13:16:31 156

原创 46 - ODConv卷积模块

ODConv在任意卷积层使用了一种新颖的多维注意力机制，这种机制能够并行地为卷积核沿其空间大小、输入通道数、输出通道数以及卷积核数量这四个维度学习补充的注意力。这使得在不同的空间位置、所有输入通道、所有滤波器及所有核上的卷积操作针对输入具有不同的特性，从而大幅提升了基本卷积操作的特征提取能力。ODConv是第一个沿着卷积核空间的所有四个维度同时学习注意力的方法，这使得其能够捕获更丰富的上下文线索，与现有的动态卷积设计相比，它提供了更好的精度和效率权衡。1、**全维度注意力：**3、**通用性：**

2025-07-18 08:57:57 228

原创 45 - 深度可分离卷积模块

这个层使用的是`nn.Conv2d`，其中`groups`参数等于输入通道数，实现了深度卷积。`DepthwiseSeparableConv`模块主要用于执行深度可分离卷积操作，它是一种高效的卷积方法，广泛应用于减少模型参数数量、计算成本以及提高运行效率等场景，特别是在移动和嵌入式设备上的深度学习应用中。`DepthwiseSeparableConv`类的设计提供了灵活性，可以根据具体任务调整内部层的配置（例如，卷积核大小、步长和填充），以适应不同的输入特征和需求，从而提高了模型的适用范围和扩展性。

2025-07-18 08:55:02 304

原创 44 - 蛇形卷积模块

不同于可变形卷积，DSConv考虑管状结构的蛇形形态，并通过约束补充自由学习过程，专注于管状结构的感知。利用TCLoss在拓扑角度对分割连续性进行约束，有效地引导模型关注于可能断裂的区域，提升了管状结构分割的连续性和完整性。DSConv能够适应性地聚焦于细长和曲折的局部特征，与可变形卷积相比，在保持目标形态的同时增强了对管状结构的感知能力。基于DSConv生成多种形态的内核模板，从多个角度观察目标的结构特征，并通过总结典型的关键特征实现高效的特征融合。

2025-07-18 08:54:09 461

原创 43 - 可变性卷积模块

InternImage通过上述设计，可以高效地扩展到大规模参数，并从大规模训练数据中学习更强大的表示，从而在包括ImageNet、COCO和ADE20K在内的具有挑战性的基准测试中证明了模型的有效性。值得一提的是，InternImage-H在COCO test-dev上创造了新纪录，达到了65.4 mAP，在ADE20K上达到了62.9 mIoU，超越了当前领先的CNN和ViTs。### 3、**独特优势**### 1、**作用**### 2、**机制**

2025-07-18 08:53:09 267

原创 42 - 空洞卷积模块

所以代码可以借鉴ASPP。膨胀卷积旨在通过扩大卷积核的感受野而不增加参数数量或计算量，提高模型对多尺度上下文信息的捕获能力。与增加卷积层或扩大卷积核尺寸相比，膨胀卷积在提升感受野的同时，保持了模型的参数数量和计算效率。通过在标准卷积核的元素间插入空白（即“膨胀”卷积核），无需增加额外的计算负担即可扩大感受野。通过组合不同膨胀率的膨胀卷积，模型能够同时考虑多种尺度的上下文信息，提高特征的表示能力。在扩大感受野的同时，膨胀卷积不增加额外的参数，使得模型在增加表达能力的同时保持了高效性。

2025-07-18 08:52:21 267

原创 41 - 部分卷积模块

为了实现更快的网络，FasterNet重新审视了流行的操作符，并证明了这种低FLOPS主要是由于运算符特别是深度卷积的频繁内存访问导致的。这两者的有效接受场类似于一个T形的卷积，更加关注中心位置，与常规卷积在补丁上的均匀处理相比，这提供了一个集中于中心位置的计算视角。其大型版本FasterNet-L在GPU上的推理吞吐量比Swin-B高36%，在CPU上节省了37%的计算时间，同时实现了与Swin-B相当的83.5%的top-1准确率。### 3、**独特优势**### 2、**机制**

2025-07-18 08:51:26 452

原创 40 - ScConv卷积模块

2、**通道重构单元（CRU）**：采用分割-转换-融合策略，首先将特征图在通道维度上分割成两部分，一部分通过高效的卷积操作进行特征提取，另一部分则直接利用，最后将两部分的特征图通过自适应融合策略合并，以减少通道维度上的冗余并提升特征的代表性。1、**空间重构单元（SRU）**：通过分离操作将输入特征图分为信息丰富和信息较少的两部分，然后通过重建操作将这两部分的特征图结合起来，以增强特征表达并抑制空间维度上的冗余。### 3、**独特优势**### 1、**作用**### 2、**机制**

2025-07-18 08:50:04 374

原创 39 - CFPNet

与传统的特征金字塔网络（FPN）相比，CFP的主要优势在于其能够更有效地聚合多尺度特征并提供更加丰富的特征表示。CFP通过创建一个中心化的特征层，有效地整合了来自不同层的信息，以此增强目标检测的精度。这种集中式的特征层为目标检测提供了一个更丰富的特征表示，有助于提高小目标的检测率以及在各种尺度上的性能。通过这种方式，CFP能够融合不同尺度的特征，并将这些信息有效地传递给金字塔的各个级别，从而实现更准确的目标检测。### 3、**独特优势**### 1、**作用**### 2、**机制**

2025-07-18 08:49:05 339

原创 38 - fcanet模块

通过直接在频率域对特征进行操作，FcaNet 能够捕捉到细微的纹理变化，这些在空间域中可能不容易区分，从而提高了模型对图像的理解能力。虽然涉及到频率变换，但FcaNet设计了高效的注意力机制和网络结构，保证了计算的高效性，同时在多个标准数据集上达到了优越的性能。最后，通过逆快速傅立叶变换（IFFT）将加权的频率特征映射回空间域，并通过卷积层进一步细化特征，最终输出用于分类的特征表示。然后，网络通过一个频率通道注意力模块来自动学习和强调更重要的频率成分，从而更有效地聚焦于对分类任务有益的频率特征。

2025-07-18 08:46:09 316

原创 37 - A2Atttention模块

第二步则利用另一个注意力机制，根据每个位置的需求适应性地选择和分配关键特征，使得后续的卷积层能够有效地访问整个空间的特征。A2-Nets通过引入双重注意力机制，有效地捕获长距离特征依赖，提高图像和视频识别任务的性能。3、A2-Nets可以被方便地插入到现有的深度神经网络中，对计算和内存资源的额外需求小，同时在多个标准图像和视频识别任务上显著提高性能。2、第二个注意力操作使得模型可以从紧凑的特征集合中，根据每个位置的具体需求适应性地分配特征，比全面相关特征的方法更高效。### 3、独特优势。

2025-07-18 08:45:14 289

原创 37 - A2Atttention模块

第二步则利用另一个注意力机制，根据每个位置的需求适应性地选择和分配关键特征，使得后续的卷积层能够有效地访问整个空间的特征。A2-Nets通过引入双重注意力机制，有效地捕获长距离特征依赖，提高图像和视频识别任务的性能。3、A2-Nets可以被方便地插入到现有的深度神经网络中，对计算和内存资源的额外需求小，同时在多个标准图像和视频识别任务上显著提高性能。2、第二个注意力操作使得模型可以从紧凑的特征集合中，根据每个位置的具体需求适应性地分配特征，比全面相关特征的方法更高效。### 3、独特优势。

2025-07-18 08:40:43 366

原创 36 - CrissCrossAttention模块

3、**优异的性能**：广泛的实验表明，CrossFormer在图像分类、对象检测、实例分割和语义分割等任务上超越了其他最先进的视觉Transformer模型。1、**跨尺度交互**：CrossFormer通过CEL和LSDA实现了特征在不同尺度间的有效交互，这对于处理具有不同尺寸对象的图像至关重要。2、**灵活性和适用性**：通过动态位置偏差模块，CrossFormer能够适应不同尺寸的输入图像，提高了模型在各种视觉任务上的适用性。### 3、独特优势。

2025-07-18 08:39:34 363

原创 35 - AFT模块

这种方法极大地降低了模型的复杂性和运行时内存需求。**注意力自由变换器（AFT）**旨在通过去除传统Transformer中的点积自注意力机制，提供一种更高效的变换器模型。4、**资源占用低**：对于资源受限的环境，如移动设备和边缘计算设备，AFT提供了一种实用的解决方案，能够在保持较高性能的同时，降低资源消耗。2、**简化模型结构**：通过消除自注意力机制，AFT简化了模型结构，使得模型更加轻量化，易于实现和部署。3、**适应性强**：AFT的结构使其更容易适应于不同的任务和数据集，具有良好的泛化能力。

2025-07-18 08:38:46 293

原创 34 - IRMB模块

EMO在ImageNet-1K、COCO2017和ADE20K基准上的广泛实验展示了其优越性，例如，EMO-1M/2M/5M分别达到了71.5%、75.1%和78.4%的Top-1准确率，超过了同等级别的CNN-/Attention-based模型。本研究通过简单但有效的设计准则，提出了一种现代的Inverted Residual Mobile Block（iRMB），并使用iRMB构建了一个类似于ResNet的高效模型（EMO），仅用于下游任务。### 3、独特优势。

2025-07-18 08:36:04 450

原创 33 - STVit模块

STVit引入了一种类似于图像处理中“超像素”的概念，称为“超级令牌”（super tokens），以减少自注意力计算中元素的数量，同时保留对全局关系建模的能力。该过程涉及从视觉令牌中采样超级令牌，对这些超级令牌执行自注意力操作，并将它们映射回原始令牌空间。STVit在不同的视觉任务中展示了强大的性能，包括图像分类、对象检测和分割，同时拥有更少的参数和较低的计算成本。例如，STVit在没有额外训练数据的情况下，在ImageNet-1K分类任务上达到了86.4%的顶级1准确率，且参数少于100M。

2025-07-18 08:34:27 201