mingo_敏
这个作者很懒,什么都没留下…
展开
-
深度学习论文: YOLOMG: Vision-based Drone-to-Drone Detection with Appearance and Pixel-Level Motion Fusion
针对复杂环境下微型无人机检测难题,本文提出端到端框架YOLO-MG,通过运动引导实现精准检测。原创 2025-05-13 15:49:45 · 50 阅读 · 0 评论 -
深度学习论文: Ovis: Structural Embedding Alignment for Multimodal Large Language Model
在当下的多模态大语言模型(MLLM)领域,常见的做法是借助诸如多层感知机(MLP)之类的连接组件,将预训练的大语言模型(LLM)与另一个预训练的视觉 Transformer 进行整合,以此赋予大语言模型视觉处理能力。然而,在多模态大语言模型中,两种嵌入策略存在着显著的不协调问题:其一是基于嵌入查询表的结构化文本嵌入方式,其二是由视觉编码器直接生成的连续嵌入方式。这种策略上的差异,给视觉信息与文本信息的深度融合带来了诸多挑战,难以实现无缝衔接。有鉴于此,本文创新性地提出了 Ovis 这一架构。原创 2025-04-17 10:55:43 · 64 阅读 · 0 评论 -
深度学习论文: Autoregressive Pre-training of Large Vision Encoders
跨模态生成架构设计层级化视觉-文本编码器-解码器结构,采用因果掩码机制实现图像块与文本令牌的双向信息流动。视觉编码器结合动态前缀注意力,文本解码器融合SwiGLU激活与RMSNorm归一化,提升跨模态特征交互效率。统一目标函数提出多模态序列生成目标函数,通过像素级MSE(图像)和交叉熵(文本)损失联合优化,α超参数平衡模态监督。突破传统对比学习局限,直接通过生成任务增强跨模态语义一致性。高效训练策略采用混合精度训练与动态序列打包技术,在120亿图文对上实现高效训练。原创 2025-04-02 14:53:03 · 175 阅读 · 0 评论 -
深度学习论文: OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
自上而下的注意力在人类视觉系统中至关重要,大脑先概览场景找线索,再细察详情。但现代卷积神经网络(ConvNets)采用金字塔结构扩大感受野,忽略了这一仿生原理。本文提出了 OverLoCK,这是首个明确融入自上而下注意力机制的纯卷积神经网络骨干架构。与金字塔骨干网络不同,本文的设计采用了一种分支架构,包含三个协同工作的子网络:1)基础网络(Base - Net),用于编码低 / 中层特征;原创 2025-04-02 10:39:26 · 440 阅读 · 0 评论 -
深度学习论文: Image Segmentation Using Text and Image Prompts
本文以CLIP模型为骨干网络,扩展了基于Transformer的解码器以实现密集预测。在扩展版PhraseCut数据集训练后,系统可根据自由文本提示或表达查询的附加图像生成图像二值分割图。本文详细分析了基于图像提示的不同变体,这种新型混合输入方式不仅支持上述三类分割任务,还适用于任何可通过文本或图像查询定义的二值分割任务。实验表明,该系统能有效适应涉及功能属性或物理特性的广义查询。核心创新点统一多任务框架:通过单模型解决三类分割任务,突破传统方法的类别限制动态提示机制。原创 2025-03-26 17:29:28 · 260 阅读 · 0 评论 -
深度学习论文: General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
在 OCR 技术领域,传统方法与基于大型视觉语言模型(LVLM)的方案难以满足人们对光学字符处理日益多元的需求。为突破这一困境,我们创新提出通用 OCR 理论 ——OCR - 2.0,旨在构建新型 OCR 模型,推动该技术迈向新高度。端到端架构:摒弃传统 OCR - 1.0 模型复杂的多模块流水线,采用统一架构,简化流程,降低维护成本,让初学者也能轻松掌握,极大提升系统易用性与扩展性。原创 2025-03-24 16:24:01 · 209 阅读 · 0 评论 -
YOLOE:Real-Time Seeing Anything 让 AI 像人类眼睛一样 “看见一切”!
比如训练时教它认“汽车”和“行人”,遇到没见过的“无人机”或“外星生物”就彻底懵圈。传统YOLO就像戴着一副“预设眼镜”,只能看到预先定义的物体。而。原创 2025-03-14 10:01:57 · 438 阅读 · 0 评论 -
低光图像增强新突破!HVI 色彩空间 + CIDNet 网络如何攻克红黑噪声难题?
低光照图像增强(LLIE)作为计算机视觉领域的核心任务,旨在从退化的暗光图像中恢复清晰细节。传统基于标准 RGB(sRGB)空间的增强方法,由于对颜色变化过于敏感,常导致图像出现明显的色彩偏移和亮度失真。尽管转换到 HSV(色调 / 饱和度 / 明度)空间能部分改善亮度问题,但却引发了更为棘手的红色区域断层和暗部噪声放大问题。针对这一挑战,本文创新性地提出了专为低光增强设计的 HVI(水平 - 垂直 - 强度)色彩空间。极化 HS 平面。原创 2025-03-13 17:04:06 · 220 阅读 · 0 评论 -
深度学习论文: D-FINE: Redefine Regression Task of DETRs as Fine-grained Distribution Refinement
在实时目标检测领域发展日新月异的当下,D - FINE 以一种极具革新性的姿态横空出世。它犹如一把利刃,显著突破了现有模型的性能瓶颈,这些模型涵盖了如 YOLOv10、YOLO11 以及 RT - DETR v1/v2/v3 等业内知名的目标检测模型,大幅提升了实时目标检测的性能上限。D - FINE 在大规模数据集 Objects365 上完成预训练后,展现出了令人惊叹的实力。它将竞争对手 LW - DETR 远远甩在身后,在 COCO 数据集上更是斩获了高达 59.3% 的平均精度(AP)。原创 2025-02-25 13:49:07 · 154 阅读 · 0 评论 -
深度学习论文: YOLOv12: Attention-Centric Real-Time Object Detectors
在目标检测领域,YOLO 系列算法凭借在延迟与准确率间的出色平衡占据主导地位。尽管其改进涉及多个方面,但网络架构设计始终是研究的关键方向。近年来,以注意力为核心的视觉 Transformer(ViT)架构展现出强大建模能力,然而多数架构设计仍聚焦于卷积神经网络(CNN)。这是因为注意力机制存在效率问题,包括二次计算复杂性和低效的内存访问操作,这极大限制了其在对推理速度要求高的 YOLO 系统中的应用。原创 2025-02-20 10:57:44 · 235 阅读 · 0 评论 -
深度学习论文: RailYolact -- A Yolact Focused on edge for Real-Time Rail Segmentation
为了解决模型预测的铁轨掩码边缘粗糙的问题,本文将边缘算子提取的边缘信息融入原始 Yolact 的损失函数中,以强调模型对铁轨边缘的关注。此外,本文应用盒式滤波器对线性插值导致的真实标签掩码边缘锯齿进行平滑处理。由于边缘信息的融入和平滑处理过程仅在训练阶段进行,因此模型的推理速度并未受到影响。本文在自定义铁轨数据集上的实验结果显示,预测准确率有所提高。原创 2025-02-17 13:18:01 · 366 阅读 · 0 评论 -
深度学习论文: Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera
在计算机视觉领域,实现跨任意视场角相机的零样本深度泛化工作颇具挑战性,具体体现在以下几个方面:其一,需选取统一的相机模型来精准表示不同的视场角;其二,要有效利用透视训练数据集,使其能够泛化到仅在大视场角相机中可见的数据空间;其三,要应对因不同视场角导致的统一空间中训练图像大小显著差异的问题;其四,需处理训练和测试阶段之间存在的分辨率不一致问题。针对上述挑战,本文提出了深度任意相机(DAC)这一创新性的零样本度量深度估计框架。原创 2025-02-14 16:45:43 · 104 阅读 · 0 评论 -
深度学习论文: Is Cosine-Similarity of Embeddings Really About Similarity?
深度学习论文: Is Cosine-Similarity of Embeddings Really About Similarity?Is Cosine-Similarity of Embeddings Really About Similarity?PDF:https://arxiv.org/pdf/2403.05440v1PyTorch代码: https://github.com/shanglianlm0525/CvPytorchPyTorch代码: https://github.com/sha原创 2025-02-05 14:20:30 · 130 阅读 · 0 评论 -
深度学习论文: TinySAM: Pushing the Envelope for Efficient Segment Anything Model
最近,分割任意模型(SAM)凭借其强大的分割能力,在计算机视觉领域引发广泛关注,众多基于预训练 SAM 的后续工作开发出各种应用,于下游视觉任务中性能斐然。然而,SAM 架构复杂,对计算资源需求大,这严重限制了它在计算资源受限的边缘设备上的应用。为解决这一问题,进一步推动高效分割任意模型的发展,本文提出了一个完整框架以构建轻量级的分割任意模型 TinySAM,使其在最大程度保留强大零样本性能的同时,大幅降低计算成本。硬挖掘全阶段知识蒸馏。原创 2025-01-14 14:51:46 · 207 阅读 · 0 评论 -
深度学习论文: CAS-ViT: Convolutional Additive Self-attention Vision Transformers
在相关研究中,视觉 Transformer(ViT)虽凭借 token mixer 的强大全局上下文能力取得了显著进展,但也面临着 token mixer 中矩阵操作(如 Softmax)复杂度高,以及在移动设备或实时应用中难以兼顾准确性、效率和易部署性等问题。为解决这些问题,研究者提出了卷积加性自注意力(CAS)-ViT 这一轻量级网络家族。首先,研究者认为 token mixer 获取全局上下文信息依赖于空间域和通道域等多维度的信息交互。原创 2025-01-14 11:34:13 · 159 阅读 · 0 评论 -
深度学习论文: PatchRefiner V2: Fast and Lightweight Real-Domain High-Resolution Metric Depth Estimation
当前高分辨率深度估计方法存在计算效率低、推理时间长的问题。以 PatchRefiner(PR)为例,它采用分块策略获取高分辨率输出,但在实际应用中面临挑战。由于其使用相同架构提取特征,对于单个高分辨率输入,基础模型需至少进行 17 次前向传递,这导致推理时间长、内存需求高,只能采用分阶段训练,效果欠佳。原创 2025-01-06 15:20:09 · 101 阅读 · 0 评论 -
深度学习论文: Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models
物体方向是理解其在图像中空间姿态和排列的核心属性,然而,从单张图像中准确估计方向的实用解决方案仍未被充分探索。本文提出了Orient Anything,这是首个专门设计用于在单张和自由视角图像中估计物体方向的专家和基础模型。针对标注数据稀缺的问题,本文创新性地从3D世界中提取知识,开发了一套自动化流程,通过标注3D物体的前表面并从随机视角渲染图像,生成了200万张带有精确方向标注的图像数据集。原创 2025-01-02 14:30:15 · 147 阅读 · 0 评论 -
深度学习论文: RemDet: Rethinking Efficient Model Design for UAV Object Detection
无人机(UAV)图像中的目标检测正成为研究热点,但面临两大难题:目标小而密集,以及计算资源受限导致模型难以实时部署。当前实时检测器未针对无人机图像优化,且小物体检测方法往往缺乏实时性。为应对这些挑战,本文推出了RemDet(重参数高效乘法检测器)。识别挑战:本文深刻认识到小型密集无人机图像对检测器的挑战,提出将信息损失作为设计高效模型的关键考量。增强小目标检测:引入ChannelC2f模块,通过高维表示有效减轻信息丢失,提升小目标检测性能。原创 2024-12-26 09:43:46 · 667 阅读 · 0 评论 -
深度学习论文: DEIM: DETR with Improved Matching for Fast Convergence
目标检测在自动驾驶和机器人导航等领域至关重要,而YOLO因其速度快和准确性高而成为主流的实时检测工具。然而,YOLO的一对多锚点策略会导致多个重叠的边界框,需要非极大值抑制(NMS)来减少冗余,这增加了计算延迟和不稳定性。DETR模型通过一对一匹配策略避免了NMS,但它们的慢速收敛和低质量匹配限制了性能。为了解决这些问题,本文提出了一种新的密集一对一(Dense O2O)匹配策略,它通过增加训练图像中的目标数量来生成更多的正样本,从而提供与一对多策略相当的监督水平,而无需增加额外的计算负担。原创 2024-12-25 08:38:23 · 658 阅读 · 0 评论 -
深度学习论文: EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction
当前,顶尖的高分辨率密集预测模型所需的计算资源庞大,而大多数硬件设备所能提供的计算资源相对有限,这构成了模型部署的一大障碍。具体而言,模型的复杂度与硬件资源之间的不匹配,使得这些高效模型难以在实际环境中得到广泛应用。此外,高分辨率密集预测模型的有效运行还依赖于对高分辨率图像的准确解析以及强大的上下文信息提取能力。然而,直接将图像分类领域的成功模型架构应用于高分辨率密集预测任务,往往因不适应高分辨率图像处理的特殊要求而效果不佳。原创 2024-12-11 16:36:09 · 89 阅读 · 0 评论 -
深度学习论文: Efficient Track Anything
本文探讨了简化的非层级图像编码器在视频对象分割和目标追踪中的应用。提出了利用轻量级ViT图像编码器(如ViT-Tiny/-Small)来简化SAM 2,同时保持高效性能。此外,引入了一种高效的跨注意力机制来优化内存模块,这一机制利用了内存空间标记的局部特性,以粗略的内存空间标记作为执行跨注意力的有效代理。实验结果表明,这种方法是原始内存模块的一个有效替代。在视频和图像分割基准测试中进行了广泛的实验评估,包括MOSE、DAVIS、LVOS、SA-V和SA-23。原创 2024-12-11 11:26:33 · 239 阅读 · 0 评论 -
深度学习论文: MamKPD: A Simple Mamba Baseline for 2D Keypoint Detection
受Mamba在计算机视觉领域的成功应用的启发,本研究首次深入挖掘了Mamba在二维关键点检测任务中的潜力。然而,传统的Mamba块在状态更新时仅关注图像块的聚合,这在一定程度上限制了其捕捉上下文特征(即块间依赖关系)的能力。考虑到上下文信息对于关键点检测至关重要,因为它能让模型学习到实例的结构信息,块之间的关系不容忽视。为解决这一挑战,本文提出了一种全新的二维关键点检测框架——MamKPD,这也是首个基于Mamba的二维关键点检测基线网络。原创 2024-12-10 11:10:15 · 129 阅读 · 0 评论 -
深度学习论文: Rewrite the Stars
在神经网络设计的广阔领域中,星操作(即元素级乘法)作为一种具有潜力的技术手段,尚未被充分发掘其应用潜力。尽管星操作已拥有直观的解释,但其在实际应用中所依据的理论基础尚待深入剖析。此外,星操作还具备将输入数据映射至高维非线性特征空间的能力,这一特性与核技巧相似,但无需额外增加网络的宽度。本文创新性地提出了StarNet原型网络,该网络充分利用了星操作的独特优势。StarNet在紧凑的网络架构和有限的计算资源下,展现了卓越的性能和低延迟特性。原创 2024-12-03 13:36:44 · 116 阅读 · 0 评论 -
深度学习论文: DSORT-MCU: Detecting Small Objects in Real-Time on Microcontroller Units
轻量级神经网络的显著进步已经极大地推动了计算机视觉技术在各类物联网(IoT)应用中的革新,这些应用广泛涉及远程监控和流程自动化等领域。然而,对于众多此类应用而言,小型物体的检测至关重要,但这一领域在计算机视觉研究中仍属未被充分探索的范畴,尤其是在资源受限的嵌入式设备上,这些设备通常配备有性能有限的处理器。为应对这一挑战,本文提出了一种创新的分块策略,旨在优化轻量级且节能的目标检测网络,其中包括YOLO基础模型及广受欢迎的“更快地找到更多物体”(FOMO)网络。原创 2024-11-29 15:39:53 · 107 阅读 · 0 评论 -
深度学习论文: SL-YOLO: A Stronger and Lighter Drone Target Detection Model
SLYOLO,一个基于YOLOv8s的轻量级模型,旨在提高复杂环境下小目标检测的性能,并适用于资源受限的设备。SLYOLO 提出了一个层次扩展路径聚合网络(HEPAN),它可以更好地融合不同层次的特征,从而提高模型捕获小目标的能力。此外设计了一个C2fDCB轻量级模块,通过优化网络的卷积结构,减少模型参数数量和计算复杂性。针对YOLOv8在无人机图像中小目标检测的不足,增加了专门用于小目标的检测层,有效提升了模型对小目标的捕获能力。原创 2024-11-29 10:42:20 · 385 阅读 · 0 评论 -
深度学习论文: MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection
以往,基于卷积神经网络(CNN)和Transformer结构的算法在异常检测领域已得到广泛应用,并取得了一定成效。然而,CNN在处理长距离信息关联性方面存在局限,而Transformer则因计算复杂度高达平方级别而受限。近期,基于Mamba的模型凭借其卓越的长距离建模能力和线性计算复杂度,引起了研究界的广泛关注。本文创新性地首次将Mamba模型应用于多类无监督异常检测领域,提出了MambaAD方法。原创 2024-11-21 11:38:14 · 167 阅读 · 0 评论 -
深度学习论文: PixOOD: Pixel-Level Out-of-Distribution Detection
PixOOD异常检测算法专注于密集图像预测,无需依赖异常数据样本进行训练,也不针对特定应用场景,从而有效规避了传统训练可能带来的偏差。为了精确建模像素级分布内数据的复杂类内变化,本文创新性地设计了一种在线数据压缩算法。该算法相较于标准的K-means方法展现出更强的鲁棒性,并且能够通过随机梯度下降(SGD)实现便捷的训练。PixOOD作为一种新颖的像素级OOD检测方法,具备高度的通用性,不针对任何特定任务或基准测试进行设计,同时无需任何真实或合成的OOD训练样本(详见第3节)。原创 2024-10-23 08:51:23 · 783 阅读 · 0 评论 -
Anomalib 1.x 系列之四:输入切片(tiling)
输入切片的基本思路是,在预处理阶段,将图像分割成一个矩形的切片网格,这通常是为了减少内存使用。通过将单个切片而非完整图像作为输入传递给模型,切片技术降低了模型的输入维度,同时从内容层面保持了图像的有效输入分辨率。在Anomalib中,切片器(Tiler)默认会按批次堆叠切片,因此如果不减小批次大小,内存消耗将保持不变。通过调整这些参数,用户可以灵活地控制切片过程,以适应不同的内存限制和图像处理需求。Anomalib 1.x 系列之四:输入切片(tiling)原创 2024-10-22 08:31:18 · 147 阅读 · 0 评论 -
Anomalib 1.x 系列之三:自定义数据增强
Anomalib 1.x 系列之三:自定义数据增强Anomalib 使用 Torchvision Transforms v2 API 对输入图像应用转换操作。原创 2024-10-22 08:30:10 · 132 阅读 · 0 评论 -
Anomalib 1.x 系列之二:自定义数据
name (str) – 数据集的名称。normal_dir (str | Path | Sequence) – 包含正常图像的目录名称。root (str | Path | None) – 包含正常和异常目录的根文件夹路径。默认为 None。abnormal_dir (str | Path | None | Sequence) – 包含异常图像的目录名称。默认为 None。原创 2024-10-21 08:34:17 · 656 阅读 · 0 评论 -
Anomalib 1.x 系列之一:安装和使用
Anomalib 1.x 系列之一:安装和使用。原创 2024-10-21 08:33:15 · 243 阅读 · 0 评论 -
深度学习论文: AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One
AM-RADIO是一个由英伟达精心打造的视觉基础模型框架,它巧妙地将CLIP、DINOv2及SAM等多个预训练的视觉基础模型的强大能力融为一体,从而赋予了自身卓越的表征能力。尤为值得一提的是,这一框架在几乎不增加任何额外成本的前提下,成功实现了SOTA(State-of-the-Art)级别的零样本分类与开集实例分割性能,这一成就无疑令人瞩目。原创 2024-10-17 11:57:34 · 437 阅读 · 0 评论 -
深度学习论文: T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy
以往的开放集物体检测方法依赖于文本提示,虽然能够有效地概括常见物体的抽象概念,但在数据稀缺和描述能力受限的情况下,难以有效表示罕见或复杂物体。与此相反,视觉提示在通过具体视觉示例描绘新物体方面表现出色,但在传达物体的抽象概念方面不如文本提示有效。T-Rex2模型通过对比学习结合了文本和视觉提示的互补优势,将两者融合在单一模型中。该模型能够接受包括文本提示、视觉提示以及两者结合的多种格式输入,使其能够通过切换提示模式来适应不同场景。原创 2024-10-16 16:44:08 · 281 阅读 · 0 评论 -
目标检测中的Classificition Loss
Classificition LossPyTorch: https://github.com/shanglianlm0525/CvPytorch目标检测任务的损失函数由Classificition Loss和Bounding Box Regeression Loss两部分构成。本文介绍目标检测任务中近几年来Classificition Loss的演变过程参考资料:1 一文看尽深度学习中的15种损失函数...原创 2021-06-07 16:58:42 · 741 阅读 · 1 评论 -
目标检测中的Bounding Box Regression Loss
Bounding Box Regression LossPyTorch: https://github.com/shanglianlm0525/CvPytorch目标检测任务的损失函数由Classificition Loss和Bounding Box Regeression Loss两部分构成。本文介绍目标检测任务中近几年来Bounding Box Regression Loss Function的演变过程Smooth L1 Loss优点:缺点:Focal Loss优点:缺点:Io原创 2021-05-10 21:57:06 · 4547 阅读 · 0 评论 -
Bounding Box Regression Loss演变过程
目标检测任务的损失函数由Classificition Loss和Bounding Box Regeression Loss两部分构成。本文介绍目标检测任务中近几年来Bounding Box Regression Loss Function的演变过程原创 2024-10-16 13:40:38 · 142 阅读 · 0 评论 -
深度学习论文: EfficientCrackNet: A Lightweight Model for Crack Segmentation
EfficientCrackNet 是一种创新的轻量级混合模型,它将卷积神经网络(CNNs)与 Transformer 架构巧妙融合,旨在实现高精度的裂缝分割任务。该模型通过集成深度可分卷积层(DSC)和移动视觉块,有效捕捉图像中的全局与局部特征,从而提升了裂缝识别的准确性。为了进一步提升效率,EfficientCrackNet 采用了边缘提取方法(EEM),这种方法能够在无需预训练的情况下,实现高效的裂缝边缘检测。原创 2024-10-15 16:55:30 · 347 阅读 · 0 评论 -
深度学习论文: PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised OBB
深度学习论文: PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object DetectionPointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object DetectionPDF: https://arxiv.org/pdf/2410.08210PyTorch代原创 2024-10-15 13:55:31 · 376 阅读 · 0 评论 -
深度学习论文: Slender Object Detection: Diagnoses and Improvements
本文关注细长物体的检测,这类物体具有极端的长宽比,在现实生活中十分常见,对检测系统的目标实现至关重要。然而,以往的目标检测算法在很大程度上忽略了这一类别。研究发现,在经典目标检测方法的评估中,若专注于细长物体,其在COCO数据集上的平均精度均值(mAP)会显著下滑18.9%。鉴于此,本文深入研究了细长物体检测的问题,构建了一个分析框架,并设计了专门的基准测试和评估流程,以便全面审视和对比不同的算法与模块。研究结果显示,有效的细长物体检测不依赖于基于锚点的定位方式或特定的框表示方法,而关键在于特征适应。原创 2024-10-11 16:57:10 · 333 阅读 · 0 评论 -
无人机航拍视频帧处理与图像拼接算法
无人机航拍视频帧处理与图像拼接算法。原创 2024-10-08 13:41:26 · 937 阅读 · 0 评论