- 博客(14)
- 收藏
- 关注
原创 探访 DINO 家族 Part 4:融合多模态大语言模型的视觉模型基础 RexSeek
尽管 DINO-X 在物体检测领域取得了显著的进展,但目前包括其在内的目标检测模型基于自然语言描述来精确识别特定个体的能力——即所谓“指代表达理解”依然存在相当的不足。为了提升目标检测模型在 REC 领域的能力,研究人员决定寻找一个被广泛应用的场景——人——作为突破点,以此试验并探讨目标检测模型未来的 REC 改进方向,并提出了 DINO-XSeek 的前身 RexSeek。
2025-04-01 16:48:06
999
原创 探访 DINO 家族 Part 3:最强开集目标检测模型 DINO-X 诞生
DINO-X代表了开放世界目标检测和理解的重大进步。通过将多种感知任务统一到单个模型中并支持灵活的提示机制,它为全面的图像分析提供了一个多功能框架。该模型处理长尾分布的能力以及在罕见物体类别上的强大性能,解决了先前方法的重要局限性。此外,优化的Edge版本的开发使这项技术在资源受限设备上的实际应用更加普及,让先进的计算机视觉能力不再局限于高性能服务器,而是可以融入我们的日常设备。
2025-03-31 14:27:27
977
原创 探访 DINO 家族 Part 2:开集目标检测模型 Grounding DINO 首次登场
Grounding DINO 推动了开集目标检测的重大进步,它将基于 Transformer 的DINO检测架构与基础预训练(Grounded Pre-Training)技术的优势相结合。这种融合使模型能够通过自然语言输入检测任意指定的物体,无论是简单的类别名称还是复杂的指代表达。本文将带领读者,了解 DINO 家族首个开集目标检测模型 Grounding DINO。
2025-03-28 14:34:03
970
原创 探访 DINO 家族 Part 1:始祖目标检测模型 DINO
本文将带读者了解目标检测模型 Grounding DINO 和 DINO-X 的始祖 DINO。该模型不仅在端到端目标检测方面取得了重大突破,在 COCO 基准测试上实现了当时最先进的结果,还显著提升了训练效率,使类 DETR 模型更适用于实际应用。DINO 模型的成功证明了基于 Transformer 的目标检测方法的可行性,还开辟了新的研究方向。随着计算资源的增加和数据规模的扩大,DINO 模型展现出卓越的可扩展性和崭新的能力,为后续 DINO 家族的强大模型奠定了基调。
2025-03-27 17:12:43
602
原创 探访 T-Rex2 家族 Part 1:使用文本-视觉提示的模型基座 T-Rex2
本文是《探访 T-Rex2 家族》系列内容的第 1 篇,旨在通过深入浅出的形式为读者介绍使用文本-视觉提示的通用目标检测模型 T-Rex2,并为读者解答:为什么我们需要 T-Rex2?什么是 T-Rex2?它的优势和局限性是什么?它有什么样的应用场景。
2025-03-24 17:25:42
1766
转载 理论 + 实践:最近大火的 MCP 协议,看这篇文章就够了
本文将从使用者的角度出发,分享实用内容,并以一个示例展示 MCP 的开发过程与实际应用作为结尾。本篇旨在回答三个问题:1)什么是 MCP;2)为什么需要 MCP;3)作为用户,我们如何使用/开发 MCP。
2025-03-22 17:02:25
281
原创 从英伟达 GTC 大会看视觉 AI 的三重跃迁与未来图景
过去十年,视觉 AI 经历了从简单的图像识别,到复杂的图像生成,再到当前的具身交互的跨越式发展。当前,视觉 AI 正处于一个关键的转折点。随着扩散模型、多模态大模型的突破,以及包括 NVIDIA Blackwell 架构等新一代计算基础设施的支持,视觉 AI 正迈向更广阔的应用前景。本文将深入探讨视觉模型的技术演进路径以及前沿应用场景,为读者勾勒出视觉 AI 的未来图景。
2025-03-21 22:20:32
931
原创 从生成式到具身:英伟达 GTC 大会揭示 AI 的三重进化
英伟达 GTC 大会描绘了一幅 AI 进化的宏伟蓝图——从生成式 AI(Generative AI)向代理式 AI (Agentic AI)再到具身式 AI(Physical AI)的跨越式发展。这不仅是技术路径的演进,更是人类与智能系统互动方式的根本性变革。本文将此探讨,AI 的进化将如何重塑各个行业,并带来生产力的指数级提升,以及目前面对的挑战。
2025-03-21 11:46:44
1096
原创 最新视觉语言模型 DINO-XSeek,你想知道的都在这里!
DINO-XSeek 是一款基于多模态大语言模型的目标检测模型。该模型能够根据用户输入的自然语言描述,分析对应的处理逻辑,最终推理出待检测目标的属性(如颜色、大小、姿势、穿着等)、方位(如朝向、距离、深度等)或者(物品之间或与环境的)交互关系,从而实现精准的目标定位。本文将从 DINO-XSeek 的原理、技术架构以及应用场景带您全方面了解 DINO-XSeek。
2025-03-19 14:49:04
673
原创 CV 小白必看!图像标注生存指南3:外观多样性与形变困境
在图像标注的过程中,我们经常遇到目标“千人千面”的情形:同一种类的物体可能表现出截然不同的外观差异、变形形式或扭曲姿态,这些都极大地干扰了传统标注算法的准确度。本文将探讨在高密度目标环境下,这种“外观不统一”和“姿态随意变换”尤为突出,将对标注模型造成怎样的影响。
2025-03-18 11:35:25
1110
原创 CV 小白必看!图像标注生存指南2:密集场景难题
在计算机视觉的广泛应用领域中,高密度目标场景是另一个制约图像标注效率与准确度提升的关键瓶颈。以公共安全监控为例,在城市的大街小巷,监控摄像头需要捕捉大量行人、车辆的信息;大型活动实时跟踪场景下,要对现场密集的人群、各类设施进行持续监测;物流仓储自动化识别场景里,需要快速准确地识别众多紧密排列的货物、搬运设备等。在这些场景中,目标大量重叠或紧密相邻的现象极为常见,这无疑给图像标注算法带来了前所未有的挑战。
2025-03-18 10:10:01
678
原创 CV 小白必看!图像标注生存指南1:应对光线变化挑战
在计算机视觉应用中,光线变化一直是图像标注领域的重要挑战。尤其在自动驾驶、安防监控等包含人、车的高精度场景以及农业等户外监控场景中,复杂的光线变化不仅直接影响数据质量,更会引发特征提取偏差与标注置信度下降。本文将通过实际的案例阐述光线变化会对图像细节造成哪些具体的影响。
2025-03-17 18:25:51
1258
原创 DINO-X 进化!新一代面向多实例指代任务的视觉语言模型 DINO-XSeek 登场!
IDEA-CVR 发布新一代面向多实例指代任务的视觉语言模型 DINO-XSeek,该模型通过融合DINO-X 统一视觉模型基座与多模态大语言模型,在保持精确感知能力的同时,拥有多模态大语言模型强大的推理和理解能力,突破了传统视觉模型对自然语言理解的浅层限制,实现从词汇到语法,再到指代逻辑的多层次理解。
2025-03-14 15:11:03
599
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人