才思喷涌的小书虫-优快云博客

原创 ScanNet200 新纪录！张磊团队发布 SegDINO3D：用 2D 模型能力大幅提升 3D 实例分割性能

由视启未来创始人兼 CEO、IDEA 研究院计算机视觉与机器人研究中心（CVR）讲席科学家张磊领衔的团队，研发并推出高性能 3D 实例分割框架 SegDINO3D。针对 3D 实例分割任务的精度与训练效率痛点，该框架开创性地迁移成熟 2D 检测模型的核心能力，通过图像级与物体级双层级 2D 特征融合的创新方法，在大幅提升 3D 实例分割检测精度的同时，显著加快了模型训练收敛速度。

2025-12-31 17:53:30 544

原创 DINO-X 视觉模板挑战赛火热报名中

DINO-X 视觉模板挑战赛火热开赛，万元奖金等你来拿！

2025-12-19 18:18:18 235

原创【DINO Talk】视启未来创始人张磊：打造具有超强物体级理解能力的视觉大模型，为空间智能提供核心支撑

揭秘 DINO-X 的成长历程，探讨 DINO-X 视觉大模型的发展脉络，以及企业在空间智能与具身智能领域的未来布局与深度思考。

2025-12-10 18:11:14 667

原创 DINO-X 视觉模板挑战赛早鸟开启！万元奖金等你竞逐！

早鸟报名即可获得 800 元产品竞赛额度！

2025-12-04 17:36:58 770

原创实战教程：从 0 到 1 手搓 DINO-X 定制模板，实现长尾场景精准检测和数据标注

史上最全 DINO-X 定制模板教程，手把手教你如何从 0 到 1 训练出专属定制模板，测试、调用并把 DINO-X 定制模板应用到 T-Rex Label 智能标注工具，实现长尾场景和罕见目标的全自动数据标注。

2025-12-02 11:19:26 857

转载【圆桌对话】具身智能：从实验室走向现实世界的“登月之旅” | 2025 IDEA 大会回顾

上亿天使轮融资重磅加持后，IDEA 研究院计算机视觉与机器人研究中心负责人、视启未来创始人张磊首次公开携手银河通用、美团机器人、比亚迪三大行业领军代表，并联袂香港科技大学顶尖学术大咖，共赴具身智能分享会，深度探讨产业落地发展趋势。

2025-11-24 16:12:22 68

原创具身智能分享会：从实验室走向现实世界的“登月之旅“

上亿天使轮融资重磅加持！视启未来创始人张磊首次公开携手银河通用、美团机器人、比亚迪三大行业领军代表，并联袂香港科技大学顶尖学术大咖，共赴具身智能分享会，深度探讨产业落地发展趋势。

2025-11-18 18:09:25 137

原创免费使用！T-Rex Label 推出自动 Mask 标注功能（附使用教程）

在线 AI 标注工具 T-Rex Label 正式发布 AI Mask（掩码分割）标注！本文将详细讲解如何免费使用平台提供的自动 Mask 标注功能。

2025-09-04 17:45:00 1158

原创模板商城探秘：DINO-X 定制模板指南（2）

本文旨在展示 DINO-X 开放平台的模板商城的社区公开模板，为用户展现 DINO-X 定制模板在长尾场景适配性、识别精准度上的独特优势。

2025-09-02 17:53:51 756

原创 DINO-X 定制模板：如何革新计数类应用

DINO-X 定制模板对计数类应用的革新，不仅仅是技术层面的能力升级，更是对计数需求的重新定义——让计数从“通用场景的标准化服务”，转向“长尾场景的个性化满足”。

2025-09-02 17:11:13 852

原创模板商城探秘：DINO-X 定制模板指南（1）

本文将带领读者共同探秘 DINO-X 开放平台的模板商城，一览其中定制模板的无限潜力。

2025-08-22 16:58:09 839

原创小白玩转 DINO-X MCP（2）：基于 DINO-X MCP 搭建饮食规划工作流

手把手教你从 0 到 1 搭建一套基于 DINO-X MCP 的饮食规划工作流。

2025-08-20 16:54:04 1007

原创小白玩转 DINO-X MCP（1）：如何接入 MCP Server

手把手教你怎么用 Cursor 和 Trae 调用 DINO-X MCP。

2025-08-11 16:42:43 891

原创 2025 年最好用的 5 款数据标注工具

本文基于行业合作伙伴在数据集标注、模型训练等工作流程中使用不同数据标注工具的反馈，总结出 2025 年迄今为止最好用的 5 款数据标注工具，并将对比这些工具的核心功能，帮助用户找到最合适的选择。

2025-08-07 17:39:26 2584

原创定制模板 101：如何在 DINO-X 平台定制“专属小模型”

定制模板是由 DINO-X 开放平台独家提供的一项能力。用户只需提供少量标注样本，即可训练出一个高质量的视觉模板（Embedding），用于模型推理中精准识别特定目标。相比于传统模型仅能识别人、车、动物等常见类别，定制模板可识别用户业务中独有的目标，例如品牌 logo、工业缺陷、异形部件、特殊商品等，特别适用于长尾类别识别、工业定制、非标物体检测等复杂场景，帮助用户高效完成 AI 验证与部署。

2025-07-15 10:42:54 899

原创数错手指的 AI：多模态只是 “看到” ， DINO-X 却在 “看清” 世界

主流多模态模型正在遭遇一场 “认知危机”：它们能写代码、做报告，却在最基础的视觉任务上栽跟头。而 DINO-X 视觉模型选择了“视觉原生”的道路，推动 AI 真正跨越从“看到” 、“看清”，再到“看懂” 的鸿沟。

2025-07-11 17:46:47 568

原创 CountAnything 如何驱动木材行业自动库存管理转型

CountAnything 助力木材企业快速获取精准的木材计数数据，并自动生成用于库存管理与资源调配的分析报告。这种创新计数方式不仅大幅提升了工作效率，更显著降低了人力成本。同时，CountAnything 还具备突出的安全优势 —— 员工无需再置身于危险的原木堆旁进行人工计数与测量，从源头上规避了安全风险。

2025-04-21 17:23:14 1299

原创 CountAnything 助力养殖业提升 10 倍计数效能

CountAnything 携手中小养殖户以及企业，通过深入养殖场景，倾听用户反馈，为众多养殖户提供了高效、精准的计数解决方案。此外，通过整合 CountAnything 成为计数工作流的一部分，即使是小团队和个人，也能够以更低的成本享受大企业智能化、自动化的福利和优势，精细化养殖，实现降本增效。

2025-04-18 10:38:48 1168

原创探访 T-Rex2 家族 Part 2：CountAnything 如何革新行业计数场景

T-Rex2 是一个基于视觉提示的零样本开集检测模型，其提供了一种更直观的方式来识别那些难以用语言描述的稀有或视觉复杂的对象，这种特性对于解决不同行业场景，尤其是工业场景中的长尾检测问题尤为高效。为此，T-Rex2 的一个重要应用就是拍照计数，并由此衍生出拍照计数工具 CountAnything。

2025-04-15 17:13:06 1237

原创应用分享：基于 Grounding DINO 的智能膳食助手如何推进健康信息学发展

本文介绍了一种创新的膳食管理方法，通过移动应用程序利用先进的目标检测模型 Grounding DINO 模型进行食物识别和个性化营养指导。

2025-04-14 16:42:40 1598

原创学术分享：基于 ARCADE 数据集评估 Grounding DINO、YOLO 和 DINO 在血管狭窄检测中的效果

冠状动脉疾病（CAD）作为全球主要死亡原因之一，其早期准确检测对有效治疗至关重要。X 射线冠状动脉造影（XCA）虽然是诊断 CAD 的金标准，但这些图像的人工解读不仅耗时，还易受观察者间差异的影响。本研究旨在评估三种先进的目标检测模型——Grounding DINO、YOLO 和 DINO ，观察这些模型在 ARCADE 数据集上对冠状动脉造影图像中狭窄（血管变窄）的自动检测性能。

2025-04-11 15:22:26 2394 3

转载学术分享：DINO 模型如何创新垂直电商图像搜索

本文旨在重温并展示 AWS 团队于 2024 年 10 月发布的基于 DINO 模型构建的垂直电商图像搜索解决方案，并 DINO 模型在包括电商在内的垂直行业的应用提供参考和灵感。

2025-04-10 16:03:05 217

原创探访 DINO 家族 Part 4：融合多模态大语言模型的视觉模型基础 RexSeek

尽管 DINO-X 在物体检测领域取得了显著的进展，但目前包括其在内的目标检测模型基于自然语言描述来精确识别特定个体的能力——即所谓“指代表达理解”依然存在相当的不足。为了提升目标检测模型在 REC 领域的能力，研究人员决定寻找一个被广泛应用的场景——人——作为突破点，以此试验并探讨目标检测模型未来的 REC 改进方向，并提出了 DINO-XSeek 的前身 RexSeek。

2025-04-01 16:48:06 1192

原创探访 DINO 家族 Part 3：最强开集目标检测模型 DINO-X 诞生

DINO-X代表了开放世界目标检测和理解的重大进步。通过将多种感知任务统一到单个模型中并支持灵活的提示机制，它为全面的图像分析提供了一个多功能框架。该模型处理长尾分布的能力以及在罕见物体类别上的强大性能，解决了先前方法的重要局限性。此外，优化的Edge版本的开发使这项技术在资源受限设备上的实际应用更加普及，让先进的计算机视觉能力不再局限于高性能服务器，而是可以融入我们的日常设备。

2025-03-31 14:27:27 1469

原创探访 DINO 家族 Part 2：开集目标检测模型 Grounding DINO 首次登场

Grounding DINO 推动了开集目标检测的重大进步，它将基于 Transformer 的DINO检测架构与基础预训练（Grounded Pre-Training）技术的优势相结合。这种融合使模型能够通过自然语言输入检测任意指定的物体，无论是简单的类别名称还是复杂的指代表达。本文将带领读者，了解 DINO 家族首个开集目标检测模型 Grounding DINO。

2025-03-28 14:34:03 1436

原创探访 DINO 家族 Part 1：始祖目标检测模型 DINO

本文将带读者了解目标检测模型 Grounding DINO 和 DINO-X 的始祖 DINO。该模型不仅在端到端目标检测方面取得了重大突破，在 COCO 基准测试上实现了当时最先进的结果，还显著提升了训练效率，使类 DETR 模型更适用于实际应用。DINO 模型的成功证明了基于 Transformer 的目标检测方法的可行性，还开辟了新的研究方向。随着计算资源的增加和数据规模的扩大，DINO 模型展现出卓越的可扩展性和崭新的能力，为后续 DINO 家族的强大模型奠定了基调。

2025-03-27 17:12:43 1470

原创探访 T-Rex2 家族 Part 1：使用文本-视觉提示的模型基座 T-Rex2

本文是《探访 T-Rex2 家族》系列内容的第 1 篇，旨在通过深入浅出的形式为读者介绍使用文本-视觉提示的通用目标检测模型 T-Rex2，并为读者解答：为什么我们需要 T-Rex2？什么是 T-Rex2？它的优势和局限性是什么？它有什么样的应用场景。

2025-03-24 17:25:42 2199

转载理论 + 实践：最近大火的 MCP 协议，看这篇文章就够了

本文将从使用者的角度出发，分享实用内容，并以一个示例展示 MCP 的开发过程与实际应用作为结尾。本篇旨在回答三个问题：1）什么是 MCP；2）为什么需要 MCP；3）作为用户，我们如何使用/开发 MCP。

2025-03-22 17:02:25 986

原创从英伟达 GTC 大会看视觉 AI 的三重跃迁与未来图景

过去十年，视觉 AI 经历了从简单的图像识别，到复杂的图像生成，再到当前的具身交互的跨越式发展。当前，视觉 AI 正处于一个关键的转折点。随着扩散模型、多模态大模型的突破，以及包括 NVIDIA Blackwell 架构等新一代计算基础设施的支持，视觉 AI 正迈向更广阔的应用前景。本文将深入探讨视觉模型的技术演进路径以及前沿应用场景，为读者勾勒出视觉 AI 的未来图景。

2025-03-21 22:20:32 1160

原创从生成式到具身：英伟达 GTC 大会揭示 AI 的三重进化

英伟达 GTC 大会描绘了一幅 AI 进化的宏伟蓝图——从生成式 AI（Generative AI）向代理式 AI （Agentic AI）再到具身式 AI（Physical AI）的跨越式发展。这不仅是技术路径的演进，更是人类与智能系统互动方式的根本性变革。本文将此探讨，AI 的进化将如何重塑各个行业，并带来生产力的指数级提升，以及目前面对的挑战。

2025-03-21 11:46:44 1686

原创小白一文读懂“面向多实例指代任务的视觉语言模型” DINO-XSeek

生动有趣地讲解“面向多实例指代任务的视觉语言模型” DINO-XSeek

2025-03-20 11:27:33 466

原创最新视觉语言模型 DINO-XSeek，你想知道的都在这里！

DINO-XSeek 是一款基于多模态大语言模型的目标检测模型。该模型能够根据用户输入的自然语言描述，分析对应的处理逻辑，最终推理出待检测目标的属性（如颜色、大小、姿势、穿着等）、方位（如朝向、距离、深度等）或者（物品之间或与环境的）交互关系，从而实现精准的目标定位。本文将从 DINO-XSeek 的原理、技术架构以及应用场景带您全方面了解 DINO-XSeek。

2025-03-19 14:49:04 1228

原创 CV 小白必看！图像标注生存指南3：外观多样性与形变困境

在图像标注的过程中，我们经常遇到目标“千人千面”的情形：同一种类的物体可能表现出截然不同的外观差异、变形形式或扭曲姿态，这些都极大地干扰了传统标注算法的准确度。本文将探讨在高密度目标环境下，这种“外观不统一”和“姿态随意变换”将对标注模型造成怎样的影响。

2025-03-18 11:35:25 1231

原创 CV 小白必看！图像标注生存指南2：密集场景难题

在计算机视觉的广泛应用领域中，高密度目标场景是另一个制约图像标注效率与准确度提升的关键瓶颈。以公共安全监控为例，在城市的大街小巷，监控摄像头需要捕捉大量行人、车辆的信息；大型活动实时跟踪场景下，要对现场密集的人群、各类设施进行持续监测；物流仓储自动化识别场景里，需要快速准确地识别众多紧密排列的货物、搬运设备等。在这些场景中，目标大量重叠或紧密相邻的现象极为常见，这无疑给图像标注算法带来了前所未有的挑战。

2025-03-18 10:10:01 825

原创 CV 小白必看！图像标注生存指南1：应对光线变化挑战

在计算机视觉应用中，光线变化一直是图像标注领域的重要挑战。尤其在自动驾驶、安防监控等包含人、车的高精度场景以及农业等户外监控场景中，复杂的光线变化不仅直接影响数据质量，更会引发特征提取偏差与标注置信度下降。本文将通过实际的案例阐述光线变化会对图像细节造成哪些具体的影响。

2025-03-17 18:25:51 1491

原创 DINO-X 进化！新一代面向多实例指代任务的视觉语言模型 DINO-XSeek 登场！

IDEA-CVR 发布新一代面向多实例指代任务的视觉语言模型 DINO-XSeek，该模型通过融合DINO-X 统一视觉模型基座与多模态大语言模型，在保持精确感知能力的同时，拥有多模态大语言模型强大的推理和理解能力，突破了传统视觉模型对自然语言理解的浅层限制，实现从词汇到语法，再到指代逻辑的多层次理解。

2025-03-14 15:11:03 815 1

一起发掘最前沿、最有趣的 AI 技术和应用。