YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection-优快云博客

这篇题为 《YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection》 的论文提出了一种新型的实时目标检测框架，核心是将专家混合模型引入YOLO架构，实现自适应计算分配，以在保持实时推理速度的同时显著提升检测精度。以下是其主要研究内容的概括：

一、研究背景与问题

问题：现有YOLO系列等实时检测模型采用静态密集计算，对所有输入使用相同的计算路径，导致资源分配不合理（简单场景过度计算，复杂场景计算不足），造成计算冗余与性能瓶颈。
动机：借鉴大语言模型中稀疏专家混合模型的成功，探索在视觉任务中实现动态计算分配，以打破静态模型的精度-效率权衡。

二、核心贡献与方法

1. 提出YOLO-Master框架

首次将专家混合模型应用于实时目标检测，引入Efficient Sparse Mixture-of-Experts模块，实现实例条件化的自适应计算。
框架仍保持YOLO的基本结构（Backbone + Neck + Head），但将ES-MoE模块嵌入Backbone和Neck，动态增强特征提取与融合。

2. 关键组件设计

动态路由网络：轻量级网络，根据输入特征生成路由信号。
专家多样化设计：每个专家使用深度可分离卷积，并配备不同大小的卷积核（如3×3、5×5、7×7），以捕获多尺度特征。
分阶段路由策略：
- 训练阶段：使用软Top-K路由，保持梯度流，促进专家专业化。
- 推理阶段：使用硬Top-K路由，仅激活前K个专家，实现真正的计算稀疏与加速。
负载均衡损失：防止“专家崩溃”，确保所有专家在训练中被均衡使用。

3. 损失函数优化

结合标准YOLO检测损失与专门设计的MoE负载均衡损失。
实验发现移除DFL损失、仅使用强化的MoE损失效果更佳，避免了梯度冲突，提升了训练稳定性与最终性能。

三、实验验证

1. 数据集与基准

在5个主流数据集上评估：MS COCO、PASCAL VOC、VisDrone、KITTI、SKU-110K。
对比模型包括YOLOv10–v13的最新Nano版本。

2. 主要结果

YOLO-Master-N在MS COCO上达到42.4% AP，延迟仅1.62ms，相比YOLOv13-N提升0.8% AP，速度提升17.8%。
在小目标、密集场景、复杂背景上提升尤为显著（如VisDrone +2.1%，KITTI +1.5%）。
在保持实时速度的同时，实现了SOTA的精度-效率平衡。

3. 消融实验

ES-MoE放置：仅嵌入Backbone效果最佳，同时嵌入Backbone和Neck会导致梯度干扰。
专家数量：4个专家为最佳配置，平衡性能与参数效率。
Top-K选择：K=2时达到最佳稀疏度与性能平衡。
损失配置：仅使用MoE损失（λ=1.5）效果最优。

4. 跨任务泛化

在ImageNet分类任务上，Top-1准确率提升4.9–6.6%。
在实例分割任务上，mask mAP提升2.8%。
表明YOLO-Master具有较强的通用特征表示能力。

四、结论与意义

贡献总结：
1. 首次将MoE条件计算引入实时目标检测。
2. 提出高效稀疏的ES-MoE模块与分阶段路由机制。
3. 设计负载均衡损失，稳定MoE训练。
4. 在多个基准上实现SOTA，验证了动态计算分配的有效性。
未来方向：该框架可扩展至其他视觉任务（如分割、跟踪），为资源受限设备上的自适应高效视觉系统提供新思路。

五、核心创新点

动态计算分配：根据输入复杂度自适应激活不同专家，突破静态模型的限制。
训练-推理解耦路由：软路由保梯度，硬路由保稀疏，兼顾训练稳定与推理效率。
轻量化专家设计：使用DWconv与多尺度核，保证专家多样性的同时控制计算成本。

这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

项目地址在这里，如下所示：

摘要

现有的实时目标检测方法通常采用类 YOLO 架构，以在准确性和速度之间取得良好的平衡。然而，这些模型依赖于静态密集计算，对所有输入采用统一的处理方式，导致表示能力和计算资源分配不当，例如在简单场景上过度分配，而在复杂场景上分配不足。这种不匹配导致了计算冗余和次优的检测性能。为了克服这一限制，我们提出了 YOLO-Master，一种新颖的类 YOLO 框架，为 RTOD 引入了实例条件化的自适应计算。这是通过一个高效的稀疏专家混合块实现的，该块根据每个输入的场景复杂度动态分配计算资源。其核心是一个轻量级的动态路由网络，通过一个增强多样性的目标在训练期间引导专家专业化，鼓励专家间的互补专长。此外，路由网络自适应地学习仅激活最相关的专家，从而在推理期间提高检测性能的同时最小化计算开销。在五个大规模基准测试上的综合实验证明了 YOLO-Master 的优越性。在 MS COCO 上，我们的模型以 1.62 毫秒的延迟实现了 42.4% 的 AP，优于 YOLOv13-N，mAP 提高了 +0.8%，推理速度加快了 17.8%。值得注意的是，在具有挑战性的密集场景中，增益最为显著，而模型在典型输入上保持了效率，并维持了实时推理速度。

1 引言

实时目标检测是计算机视觉中的一项关键任务，在自动驾驶、视频监控和机器人系统中有着广泛的应用[28, 31, 34]。YOLO 系列已确立其在该领域的主导地位，通过其单阶段检测框架，在检测精度和推理速度之间实现了有效的平衡[15, 16, 18, 36, 39]。类 YOLO 架构的最新进展主要集中在两个方向：通过改进的骨干设计增强特征表示[36]，以及通过精细化的颈部架构优化多尺度特征融合[25]。例如，YOLOv5 引入了 C2f 模块以改进多尺度特征学习，而 YOLOv11 则结合了选择性注意力机制来增强全局表示能力。然而，这些改进仍然受到一个基本限制的约束：所有现有的 YOLO 架构都采用静态密集计算，无论输入复杂性如何，每个输入都通过具有统一计算资源的相同网络路径进行处理。这种“一刀切”的范式导致了显著的效率低下。具体来说，包含稀疏大目标的简单场景与布满小目标的复杂场景消耗相同的计算预算，导致资源浪费和次优的特征纯净度[7, 27]。

图 1: MS COCO 上的准确度-延迟权衡。YOLO-Master-N 在 1.62 毫秒延迟下实现了 42.4% AP，在帕累托前沿上优于基线。

此外，YOLO 系列长期以来在平衡准确度-速度权衡方面面临关键挑战。从 YOLOv1 到最新版本，每一代都试图通过架构创新和训练策略来推动该权衡的帕累托前沿。然而，这些改进本质上是静态和预定义的。计算预算和网络容量在设计时是固定的，缺乏根据输入特征动态分配资源的自适应机制。当处理多样化的现实世界场景时，这种限制变得尤为明显：针对复杂城市场景优化的检测器可能对简单的高速公路环境过度参数化，而为效率调整的检测器可能对具有挑战性的情况缺乏足够的容量。现代大型语言模型的研究表明，稀疏激活模式可以显著提高效率和适应性，其中不同的输入有选择地激活模型参数的不同子集[7, 35]。这一见解促使我们探索类似的动态计算范式是否能够从根本上重塑实时目标检测中的准确性-效率格局。

为了应对这些限制，我们引入了 YOLO-Master，这是一种新颖的架构，通过在 YOLO 流程中集成专家混合框架，率先为实时目标检测引入了条件计算。我们的方法使得检测器能够基于输入内容动态激活专家网络的子集，从而打破了传统的模型容量与计算成本之间的静态权衡。基于 MoE 的设计包含三个核心机制：(1) 训练期间采用软 Top-K 激活以保持梯度流，推理期间采用硬 Top-K 稀疏化以实现效率的动态路由；(2) 采用具有不同感受野（3×3、5×5、7×7 核）的深度可分离卷积的高效专家组，以捕获不同的多尺度模式；(3) 负载均衡监督，确保训练期间专家利用率均匀，同时在部署期间保持真正的稀疏性。在 MS COCO 数据集上的评估表明，YOLO-Master 实现了卓越的性能，在保持具有竞争力的推理速度的同时，以 1.8% mAP 的优势超越了 YOLOv12[36]，以 0.8% mAP 的优势超越了 YOLOv13[18]。这验证了自适应容量分配成功地为实时目标检测建立了一个新的最先进水平，它为具有挑战性的情况扩展了资源，同时在典型输入上保持了效率。

我们将我们的贡献总结如下：

我们提出了第一个基于 MoE 的条件计算框架，用于实时目标检测，通过启用动态专家激活使模型容量适应输入复杂度，从根本上打破了静态的准确性-效率权衡。
我们设计了一个具有多尺度专家和动态路由网络的高效稀疏 MoE 块。我们在训练期间使用软 Top-K 专家以确保梯度流，在推理期间使用硬 Top-K 专家以实现真正的稀疏性，从而实现了训练稳定性和部署效率。
我们引入了一种专为目标检测设计的负载均衡监督机制，防止专家崩溃的同时保持均匀利用率，这对于在不牺牲推理稀疏性的情况下稳定 MoE 训练至关重要。
在五个不同的基准测试（MS COCO、PASCAL VOC、VisDrone、KITTI、SKU-110K）上的广泛实验证明了最先进的性能。在不同目标密度和视觉域上的一致改进验证了自适应计算相对于静态架构的普适性。

2 相关工作

2.1 实时目标检测器

YOLO 系列已成为实时目标检测的主导范式，通过持续的架构改进而不断发展[15, 16, 17, 18, 30, 32, 34, 36, 38]。代表性的改进包括多尺度特征金字塔[30]、高效层聚合[15]、无需 NMS 的训练[38]、选择性注意力机制[16]和自适应视觉感知[18]。这些方法主要关注骨干架构优化、特征融合策略和训练范式增强。然而，它们都采用静态密集计算，即无论复杂性如何，每个输入都通过具有统一计算资源的相同网络路径进行处理。这一基本限制阻碍了基于输入特征的自适应容量分配。

除了 YOLO 之外，其他实时检测器，如 RT-DETR[43]，采用了具有类似静态计算模式的基于 Transformer 的架构。虽然这些方法通过架构创新实现了具有竞争力的准确性-效率权衡，但它们缺乏动态资源分配的机制。我们的 YOLO-Master 通过引入基于专家混合框架的条件计算来弥补这一不足，实现自适应专家激活，从根本上打破了现有架构中固有的静态权衡。

2.2 专家混合

专家混合最初是为了通过条件计算来提高模型容量而提出的，其中一个门控网络将输入路由到专门的专家子网络[14]。这种稀疏激活策略在将语言模型扩展到万亿参数的同时保持可控的计算成本方面取得了显著成功[7, 19]。最近的工作已将 MoE 扩展到计算机视觉，主要集中在使用 Vision Transformer 的图像分类任务[4, 29, 33]和多任务学习[2]。然而，将 MoE 应用于像目标检测这样的密集预测任务在很大程度上仍未得到探索。与路由操作在全局图像表示上进行的分类不同，目标检测需要处理具有不同目标密度和尺度分布的多尺度空间特征。初步的努力将 MoE 集成到基于 ViT 的检测器中[40]，但它们通常会产生大量的计算开销，不适合实时场景。

我们的 YOLO-Master 通过引入首个为轻量级基于 CNN 的实时检测器量身定制的 MoE 框架来解决这一差距。我们设计了一个在特征金字塔层次结构上操作的动态路由机制，能够基于空间特征自适应地激活专家。训练-推理解耦的路由策略（训练时使用软 Top-K 以确保梯度流，推理时使用硬 Top-K 以实现真正的稀疏性）确保了优化稳定性和部署效率，使得条件计算对于实时检测变得切实可行。

2.3 自适应特征处理

注意力机制已被广泛应用于目标检测中，通过关注信息丰富的区域来动态重新校准特征[10, 12, 13, 41, 42]。虽然有效，但这些机制对所有输入应用相同的计算，包括通道注意力（SE[13]）、空间注意力（CBAM[42]）和基于 Transformer 的自注意力[1, 37]，它们都通过静态的、与输入无关的架构运行。最近的高效注意力变体[3, 26]降低了计算复杂度，但本质上仍然是密集的，用统一容量处理每个空间位置。

我们基于 MoE 的方法从根本上不同：与其通过注意力分数自适应地加权特征，我们通过条件化专家激活实现自适应计算。这种范式转变实现了依赖于输入的容量分配——简单区域激活较少的专家，而复杂区域则访问更大的模型容量——从根本上打破了基于注意力方法固有的静态计算约束。

3 方法

3.1 YOLO-Master 概述

在这项工作中，我们提出了 YOLO-Master，一种用于实时目标检测（RTOD）的新颖的类 YOLO 框架。YOLO-Master 建立在最近的 YOLO 架构（例如，YOLOv12[36]）之上，并引入了一个高效的稀疏专家混合模块，以实现稀疏的、实例条件化的自适应计算。如图 2（左上）所示，YOLO-Master 遵循标准的 YOLO 设计，包括骨干、颈部和检测头。我们的 ES-MoE 模块被插入到骨干和颈部：在骨干中，它动态增强跨不同目标尺度和场景复杂度的特征提取；在颈部中，它实现了多尺度自适应融合和信息精炼。

ES-MoE 模块遵循图 2（左下）所示的信息流。具体来说，ES-MoE 包含三个关键组件：i) 产生依赖于实例的路由信号的动态路由网络；ii) 选择最相关专家的 Softmax 门控机制；以及 iii) 将激活的专家输出融合成精炼表示的加权聚合单元。核心动态路由网络采用分阶段的路由策略，训练期间使用软路由以鼓励专家专业化，推理期间使用硬 Top-K 激活以选择最相关的专家，如图 2（右）所示。接下来我们详细描述每个组件。

图 2：YOLO-Master 的框架。该架构将 ES-MoE 模块集成到骨干和颈部，以增强特征提取和融合。输入特征通过具有 Softmax 门控的动态路由网络处理，选择 top-K 专家进行加权聚合。该框架在标准、软 Top-K（训练）和硬 Top-K（推理）路由策略之间自适应切换，以跨 P3、P4 和 P5 预测层进行高效的多尺度目标检测。

这种设计使得能够基于输入特征的局部特征和复杂度动态分配计算资源。

ES-MoE 的关键创新在于其分阶段的路由策略，如图 2（右面板）所示。在训练期间，软 Top-K 路由机制通过为所有专家分配平滑、可微分的权重，同时强调表现最佳的专家，来确保梯度连续性。在推理期间，模块切换到硬 Top-K 策略，仅激活 KK 个专家（K≪E）以实现实际的计算稀疏性和加速[7]。这种自适应机制有效地解决了传统密集模型中固有的计算冗余，使得在不同部署阶段都能实现高效的专家选择。这种路由策略的详细设计和分析将在第 3.4 节中介绍。

3.2 动态路由网络

专家网络由 E 个独立的特征转换模块 Experti 组成，每个模块旨在对输入特征 X 执行不同的非线性变换。核心设计目标是实现高计算效率和多样化的感受野，使模型能够自适应地选择最合适的特征处理路径。

高效专家架构。 为了满足实时检测的严格计算约束，每个专家 Experti 采用深度可分离卷积作为其基本构建块，而不是标准卷积[11]。DWconv 通过将空间滤波（深度卷积）与通道信息集成（逐点卷积）解耦，显著减少了参数数量和 FLOPs：

3.3 门控网络设计

3.4 分阶段路由策略

路由范式设计追求 ES-MoE 框架的基本目标，即在训练期间确保全面的专家学习，同时在推理期间强制执行严格的稀疏激活以实现计算加速。这一双重目标通过分阶段的动态路由机制实现[7, 45]。

3.5 损失函数设计

4 实验

4.1 实验设置

数据集。 我们在五个不同的基准测试上评估：MS COCO 2017[24]（11.8万张训练图像，80个类别）、PASCAL VOC 2007+2012[6]（1.65万张图像，20个类别）、VisDrone-2019[5]（0.65万张图像，10个类别）、KITTI[8]（0.75万张图像，3个类别）和 SKU-110K[9]（0.82万张图像，1个类别）。

实现。 我们使用 YOLOv12-Nano[36]（宽度缩放因子 0.5）作为基线，并集成 MoE 模块。所有模型以 640×640640×640 分辨率训练 600 个周期，使用 SGD 优化器和余弦学习率调度。总批次大小为 256。数据增强包括 Mosaic (p=1.0)、Copy-Paste (p=0.1) 和 MixUp（Nano 变体禁用）。也应用了标准增强（随机仿射，HSV 颜色抖动）。所有训练和测试均在 4 台高性能计算机上执行。

指标。 我们报告所有基准测试上的 mAP50:95 和 mAP50。效率指标包括参数数量（激活 KK 个专家时的百万参数）、延迟（毫秒）和在专用推理加速器上测量的 FPS，遵循 YOLOv12 基准的标准硬件配置（FP16，批次大小=1），强调实时部署的可行性。

4.2 主要结果

表明 YOLO-Master-N 在保持实时推理速度的同时，在所有五个基准测试上实现了最先进的性能。在 mAP 方面，YOLO-Master-N 优于最近的 YOLOv13-N，分别提升了 +0.8%（COCO）、+1.4%（VOC）、+2.1%（VisDrone）、+1.5%（KITTI）和 +0.7%（SKU-110K）。最大的增益出现在 VisDrone（+2.1%）和 KITTI（+1.5%），验证了我们针对小目标检测和精确定位的设计。尽管准确度有所提高，YOLO-Master-N 比 YOLOv13-N 快 18%，仅比最快的 YOLOv11-N 慢 8%，展示了最优的效率-准确度平衡。在平均每张图像有 147 个目标的 SKU-110K 上，我们的方法实现了 58.2% 的 mAP，证明了在拥挤场景中的有效性。这些结果验证了我们基于 MoE 的架构，通过选择性特征处理，能够在各种检测场景中实现更高的准确度和实用的推理速度。

4.3 消融研究

4.3.1 ES-MoE 模块的有效性。

我们在表 5 中研究了 ES-MoE 模块的最佳放置策略。仅骨干集成以 2.66M 参数实现了最佳性能，mAP 为 62.1%，比基线（60.8%）提高了 +1.3%。这验证了早期特征提取阶段的专家专业化至关重要——骨干中的 ES-MoE 可以有效地学习尺度自适应和语义多样的表示，从而有利于下游检测。仅颈部集成表现不佳，mAP 为 58.2%（-2.6%），因为如果没有骨干提供的多样化输入特征，路由机制无法有效地专业化。普通的骨干产生同质特征，限制了颈部发现互补专家模式的能力。令人惊讶的是，完全集成（骨干和颈部）严重降低了性能，mAP 降至 54.9%（比基线低 -5.9%）。我们将此归因于级联路由机制之间的梯度干扰：骨干和颈部的 ES-MoE 模块在反向传播期间产生冲突的路由梯度，破坏训练稳定性并阻碍专家专业化。这一发现揭示了一个重要的设计原则：更多的 ES-MoE 模块并不能保证更好的性能，仔细的放置对于避免负面交互至关重要。基于这些结果，我们采用仅骨干 ES-MoE 作为我们的默认配置，在准确度和训练稳定性之间取得平衡。

4.3.2 专家数量

表 6 调查了专家数量对性能-效率权衡的影响。四个专家在 2.76M 参数下实现了 62.3% mAP 和 82.2% mAP50 的最佳平衡。仅使用 2 个专家导致 mAP 下降 -1.3%（61.0%），表明容量不足以建模不同尺度和语义类别的多样化目标模式。扩展到 8 个专家没有带来改善（62.0% mAP，-0.3%），同时参数增加了 33%（3.68M），表明存在过度参数化，冗余专家带来的收益递减。这验证了适度的专家多样性足以捕获目标检测中的多尺度变化，我们采用 4 个专家作为我们的默认配置。

4.3.3 Top-K 选择策略

给定 4 个专家，我们在表 7 中分析了 top-K 路由的效果。Top-2 路由在 50% 稀疏度下实现了最佳性能（61.8% mAP）。Top-1 路由遭受 -0.5% mAP 下降（61.3%），表明表示能力不足。激活 3 或 4 个专家分别没有带来明显改善。K=2 时的最佳点验证了我们的设计：两个互补专家提供了足够的特征多样性，同时保持了计算效率。这一发现与最近的 MoE 文献[7, 33]一致，该文献表明对于视觉任务，超过 K=2 后收益递减。

4.3.4 损失函数配置

表 8 和图 3 分析了五种损失配置。令人惊讶的是，完全移除 DFL 损失并使用仅 MoE 损失（权重=1.5）在 62.2% mAP 时实现了最佳性能（比基线提高 +0.3%）。训练动态（图 3）解释了这一点：配置 4（DFL + 强 MoEλ=1.5）表现出严重的振荡，而配置 5（仅 MoE）平滑地收敛。

表 1：与五个基准测试上最先进的 Nano 级检测器的比较。

我们假设 DFL 和 MoE 损失会产生冲突的梯度。具体来说，DFL 强制执行基于均匀分布的精炼，而 MoE 损失鼓励实例自适应的专家专业化。当两者都具有显著权重时，它们会争夺梯度主导地位，导致训练不稳定（配置 4: 61.4% mAP，最差）。移除 DFL 消除了这种冲突，允许 MoE 损失同时指导回归和专家专业化。这表明在专家混合架构中，MoE 损失有效地包含了 DFL 的作用。我们采用配置 5（仅 MoE，λ=1.5）作为我们的默认配置。

4.3.5 向下游任务的泛化性

为了进一步评估 YOLO-Master 的多功能性，我们将从消融研究中得出的最优配置扩展到图像分类和实例分割。

分类。 如表 3 所示，YOLO-Master-cls-N 在 ImageNet 上实现了 76.6% 的 Top-1 准确率，相比 YOLOv11 和 YOLOv12 分别取得了 6.6% 和 4.9% 的显著增益。这突显了我们骨干网络强大的特征表示能力。

分割。 在表 4 中，YOLO-Master-seg-N 实现了 35.6% 的 mAPmask，以 2.8% 的优势超越了 YOLOv12-seg-N，并在定位和掩码预测方面同时实现了改进。

检测总结。 作为这些结果的补充，我们的检测变体（表 2）实现了 49.1% 的 mAPboxm，为小规模模型树立了新的最先进水平。这些一致的跨任务改进证实了 YOLO-Master 作为一个强大且通用的架构，有效地提升了跨越不同视觉识别范式的性能。

4.4 定性分析

图 4 展示了四种代表性挑战性场景的定性比较。YOLO-Master-N 证明了在所有场景中相比基线方法的一致改进：

表 2：在 MS COCO 上跨 Small 尺度的检测性能比较。

表 3：在 ImageNet 数据集上的分类性能比较。

表 4：在 640×640 分辨率下 MS COCO 分割性能比较。

表 5：关于 ES-MoE 放置的消融研究。

表 6：专家数量对性能的影响。

表 7：基于 4 个专家的 top-K 选择的消融研究。

表 8：关于 DFL 和 MoE 损失配置的消融研究。

图 4：四个挑战性场景的定性比较。所有测试图像均来自 MS COCO[24] 和 PASCAL VOC 2007+2012[6] 测试集。

小目标检测（第 1 行）。 在草地上有小动物的户外场景中，早期版本（v10-v11）未能检测到远处物体。YOLOv12-N 开始检测，但置信度较低（0.47），YOLOv13-N 提高到 0.53，而 YOLO-Master-N 则实现了置信度较高（0.65-0.82）且定位准确的检测，验证了尺度自适应专家路由对于具有挑战性背景中的小尺度目标的有效性。

类别消歧（第 2 行）。 岩石附近有鸟的海岸场景呈现出具有挑战性的背景伪装。虽然 YOLOv10-N 到 v12-N 未能检测到被遮挡的人，YOLOv13-N 实现了边缘检测。YOLO-Master-N 产生了具有精确定位（青色框）的准确检测，表明专家专业化能够更好地区分被遮挡物体和复杂背景。

复杂场景（第 3 行）。 在具有重叠动物和人类互动的具有挑战性的剪羊毛场景中，YOLO-Master-N 实现了干净且定位准确的检测（平均置信度 0.85 对比 v13 的 0.77），展示了有效处理复杂场景的能力。

密集场景（第 4 行）。 在充满大量重叠物体（瓶子、杯子、餐具）和一个人的具有挑战性的用餐场景中，早期版本遗漏了许多小物品。YOLO-Master-N 实现了全面检测，且置信度较高（0.87-0.97），展示了在密集、杂乱环境中卓越的能力。

在所有场景中，YOLO-Master-N 实现了更高的平均置信度和更完整的检测覆盖范围，证明了 ES-MoE 的自适应专家专业化对于多样化现实世界挑战的有效性。

5 结论

在本文中，我们提出了 YOLO-Master，一种新颖的实时目标检测框架，它将高效的稀疏专家混合引入了 YOLO 架构。我们的方法通过一个轻量级动态路由网络解决了模型容量与计算效率之间的基本权衡。我们在训练期间使用软 top-K 路由以保持梯度流，并在推理期间切换到硬 top-K 路由以实现真正的计算稀疏性。在五个大规模基准测试上的综合实验表明，YOLO-Master 以卓越的效率实现了最先进的性能。它证明稀疏的 MoE 架构可以成功地应用于密集预测任务，表明动态专家选择能够同时提高准确性和效率。展望未来，我们的方法可以扩展到检测之外的其他视觉任务，为资源受限设备上通过具有条件计算的自适应神经架构实现高效的实时视觉系统铺平了道路。