ʜᴇɴʀʏ-优快云博客

原创论文阅读 SAM 3: Segment Anything with Concepts

数据引擎从带噪声的媒体-短语-掩码伪标签入手，通过人**工和AI验证器检查掩码的质量和完整性，筛选出标记正确的样本，并识别出具有挑战性的错误案例。我们将PCS任务形式化为：以文本和/或图像示例作为输入，预测与该概念匹配的每个对象的实例掩码和语义掩码，同时在视频帧中保持对象的身份一致性）。在获得初始的掩码集（或掩码片段）后，SAM 3允许使用正向和负向点击来优化单个掩码（片段）。具体来说，给定用户的点击，我们应用提示编码器对其进行编码，并将编码后的提示输入到掩码解码器中，以预测调整后的掩码。

2025-12-14 12:50:42 1057

原创 Stable Mean Teacher ---2025 AAAI

论文名称：Stable Mean Teacher for Semi-supervised Video Action Detection期刊年份：2025 IEEE视频动作检测任务具有挑战性的是，除了视频级活动分类之外，还需要时空定位。

2025-10-28 16:38:36 690

原创 Watch and Learn: Semi-Supervised Learning of Object Detectors from Videos

在每次迭代 i 时，利用基于 (L_{i-1}) 训练的模型，在输入视频 U 中标记新的边界框，将其添加到标注集 (L = L \cup L_i) 中，并迭代重复这一过程。图 2：我们的方法通过精心融合检测、鲁棒跟踪、重定位以及正样本数据的多视角建模技术，以迭代方式发现新的边界框，进而完成样本选择。某帧检测到汽车在画面左下角，下一帧却突然出现在画面右上角（不符合现实中汽车的运动逻辑），这样的检测结果就是 “时间不一致” 的。这表明，需要针对视频的特定约束条件，才能在迭代中实现有意义的学习。

2025-10-24 19:26:49 813

原创 Windows上部署FTP详解

FTP（File Transfer Protocol，文件传输协议）：是一种用于在计算机网络中传输文件的协议。它允许用户从服务器或向服务器上传下载文件。协议类型：应用层协议，基于TCP/IP。双通道传输控制连接（Control Connection）：通常使用 21 端口，用于发送命令和接收响应。数据连接（Data Connection）：用于实际的文件传输，可由服务器或客户端指定端口。

2025-09-30 23:01:36 1769

原创 CVPR 2025 Adaptive Keyframe Sampling for Long Video Understanding

等在内的严峻挑战。2.当视觉输入从单张图像变为长视频时，

2025-09-19 17:59:52 1010

原创论文阅读 Semi-Supervised Video Salient Object Detection Basedon Uncertainty-Guided Pseudo Labels

与案例（3）相比，案例（2）出现了明显的性能下降，这表明我们的CFGMM能够有效地利用帧间信息生成高质量的伪标签。由于噪声区域的权重非常小，噪声区域对损失(l_G U)的影响很小，从而避免模型从伪标签的噪声中学习，保证显著性模型训练的稳定性，有助于模型更好地收敛。案例(6a)和案例(6b)分别是在训练过程的早期和中期，由NS-GAN的鉴别器为案例(4)生成的置信度图。其中((x, y)) 表示像素位置，H W表示高度和宽度，(P(.))表示模型的预测，(L(.))表示真实标签。

2025-08-10 11:26:12 858

原创 colab使用简易教程

一种特殊的python编程环境——可以在网页上运行。是由 Google 提供的一个免费的云端 Jupyter Notebook 环境，你可以直接在浏览器中运行 Python 代码，无需本地配置环境。Colab 已预装好很多常用的深度学习和数据科学工具。支持使用 NVIDIA GPU（如 Tesla T4）或 TPU 进行加速训练，非常适合训练小型深度学习模型免费版使用GPU时间有限（一天10-12h）长时间不操作或关闭浏览器会断开连接。

2025-07-30 13:52:35 2983

原创论文阅读 End-to-End Semi-Supervised Learning for Video Action Detection

2.梯度平滑性梯度平滑度深入研究定位的时间维度，

2025-07-15 23:20:02 779

原创论文阅读 Sparsely-Supervised Object Tracking

换句话说，只有红线右侧的伪标签才会被视为可靠的，并用于构建无监督训练对。传递一致性基于目标跟踪特有的两个观察结果：1）未标注帧中的跟踪结果正是目标的未见过的快照；我们将GOT-10K[5]训练集中的视频（平均150帧）视为短视频，将LASOT[6]训练集中的视频（平均2528帧）视为长视频。具体来说，给定采样器提供的有监督对，我们按照之前有监督部分所述计算学生网络的有监督损失Lsup。这里τ是一个预定义的阈值。有助于校准教师跟踪器的前向跟踪结果(目标在连续帧里的运动通常是连贯的，不会突变的)。

2025-07-07 22:50:31 850 1

原创半监督视频目标检测数据集

YouTube-VOS 目前。的视频对象分割数据集。

2025-07-02 17:23:50 1139

原创 SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations

标题：SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations期刊：2024 CVPR。

2025-06-30 17:22:59 1172

原创 2024 CVPR Sparse Semi-DETR: Sparse Learnable Queries for Semi-Supervised Object Detection

稀疏DETR：用于半监督目标检测的稀疏可学习查询。

2025-06-22 19:11:43 868 2

原创 2025 AAAI 半监督视频动作检测的稳定平均教师模型

Stable Mean Teacher for Semi-supervised Video Action Detection 视频动作检测任务具有挑战性的是，除了视频级活动分类之外，还需要时空定位。

2025-06-01 13:42:52 1113

原创论文阅读 2023 CVPR . Semi-DETR: Semi-Supervised Object Detection with Detection Transformers

1.我们提出了一种，称为 Semi-DETR。据我们所知，我们是首个在半监督目标检测中研究基于 DETR 的检测器的团队，并且我们明确了将基于 DETR 的检测器与半监督目标检测框架相结合时的核心问题。2.我们提出了一种，该方法结合了一对多分配和一对一分配策略，以解决基于 DETR 的检测器在应用于半监督目标检测（SSOD）时，由于其固有的一对一分配所导致的训练效率低下问题。3.我们为基于 DETR 的检测器引入了和，以帮助从不同增强视角学习目标查询的语义特征不变性。

2025-05-23 18:26:18 752 1

原创打破 SSL-AL 壁垒：用于 3D 对象检测的协同半监督主动学习框架

模型可以主动选择对其学习最有帮助的数据来进行标注和训练，而不是被动地使用全部数据。基于不确定性的方法利用不确定性来识别用于注释的信息样本而基于多样性的方法优先捕获数据集的多样性和代表性。此外，最近的研究探索了基于不确定性和基于多样性的方法的整合，以利用两者的优势。临时模型更新（TMU）：使用少量已标注的数据训练初始模型。未标记样本选择（USS）：在大量未标注数据中，模型评估哪些样本“最有帮助”（通常是不确定性高或代表性强的样本）。人工标注：将选中的样本交给人类专家标注。最终模型交付（FMD）

2025-05-18 16:09:43 625

原创论文阅读 Consistent-Teacher: Towards Reducing Inconsistent Pseudo-targets inSemi-supervised Object Dete

CVPR 2023 一致性教师：旨在减少半监督目标检测中不一致的伪目标

2025-05-16 16:29:53 1137 1

原创论文阅读 AAAI 2025 一种遥感半监督目标检测方法

论文阅读 Multi-clue Consistency Learning to Bridge Gaps Between Generaland Oriented Object in Semi-supervised Detection

2025-05-11 12:25:53 2274 1

原创论文阅读 arXiv 2023 ——Mixed Pseudo Labels for Semi-Supervised Object Detection

伪标签方法在半监督目标检测任务中取得了相当大的成功，但本文揭示了这种方法中的显着局限性。具体来说，伪标签方法倾向于放大探测器的固有优势，同时突出其弱点，这表现为错过伪标签的检测，。为了克服这些挑战，本文提出了混合伪标签，由伪标记数据的组成，以减轻漏检的负面影响，并平衡模型在不同对象尺度上的学习。此外，通过使用相关实例，提高了模型对尾部类别的检测性能。

2025-04-27 20:31:01 2174 1

原创强增强与弱增强 EMA工作

训练结束时，最后一组权重可能正好处于一个不太好的点，或者受到最后几个 batch 数据的影响较大。EMA 的目标就是通过对训练过程中的权重进行平滑平均，得到一套更稳定、可能具有更好泛化能力的权重。由于 decay 非常接近 1，每次更新时，EMA 模型的参数只会朝着训练模型参数的方向。其中 α = 0.9996，意味着 Teacher 更新得很慢，保持稳定。不改变图像结构，保持目标形状清晰，便于 teacher 生成高质量伪标签。看经过严重变换的图像，提升模型的泛化能力和鲁棒性。EMA 更新的衰减率。

2025-04-27 18:33:13 304

原创论文阅读：ECCV -2022 Dense Teacher: Dense Pseudo-Labels forSemi-supervised Object Detection

最强大的半监督对象检测器（SS-OD）基于伪框，这需要一系列具有微调超参数的后处理。在这项工作中，我们建议用密集预测代替稀疏伪框，作为一种统一而直接的伪标签形式。与伪框相比，我们的密集伪标签（DPL）不涉及任何后处理方法，因此保留了更丰富的信息。我们还引入了一种区域选择，以突出关键信息，同时抑制密集标签携带的噪声。我们将我们提议的利用 DPL 的 SSOD 算法命名为 Dense Teacher。

2025-04-09 20:49:51 814 2

2502_91183859的博客