成本大幅降低！Distill-Any-Depth实现高精度深度估计；入选CVPR 2025！Real-IADD解锁工业检测新高度

单目度量深度估计是一种计算机视觉技术，旨在从单张 RGB 图像中预测绝对深度。这项技术在自动驾驶、增强现实、机器人技术和 3D 场景理解等领域有着广泛的应用。

零样本单目深度估计（MDE）通过统一深度分布以及借助大规模无标记数据，显著提升了泛化能力。但现有方法对待所有深度值都一致处理，这可能会导致伪标签中的噪声放大，从而降低蒸馏效果。基于此，浙江工业大学联合多个高校发布了 Distill-Any-Depth 。

Distill-Any-Depth 通过蒸馏算法整合多个开源模型的优势，仅需少量无标签数据即可实现高精度深度估计。相较于传统方法需要百万级标注需求，该项目仅需 2 万张无标签图像，大幅降低数据标注成本。

目前，HyperAI 超神经已上线了「Distill-Any-Depth: 单目深度估计器」教程，快来试试吧~

Distill-Any-Depth: 单目深度估计器

在线使用：Distill-Any-Depth：单目深度估计器 | 教程 | HyperAI超神经

6 月 16 日-6 月 20 日，hyper.ai 官网更新速览：

* 优质公共数据集：10 个

* 优质教程精选：14 个

* 本周论文推荐: 5 篇

* 社区文章解读：5 篇

* 热门百科词条：5 条

* 7 月截稿顶会：5 个

访问官网：hyper.ai

公共数据集精选

1. Real-IAD D³ 工业异常检测数据集

Real-IAD D³ 是一个高精度多模态数据集，相关论文成果已被计算机视觉顶会 CVPR 2025 收录。该数据集包含了 20 个工业产品类别、 69 种缺陷类型，共计 8,450 个样本，其中正常样本 5,000 个，异常样本 3,450 个。

直接使用：Real-IAD D³ 工业异常检测数据集 | 数据集 | HyperAI超神经

数据收集流程

2. FLAIR HUB 多传感器法国土地数据集

FLAIR-HUB 覆盖 2,500 多平方公里的法国多样化生态气候和景观，涵盖 19 种土地覆盖类别和 23 种作物类别，包含 630 亿个手工标注的像素，同时整合了互补数据源。

直接使用：https://go.hyper.ai/4VvCI

数据类型

3. MathFusionQA 数学推理数据集

MathFusionQA 聚焦于数学问题的多步推理与求解，数据集包含 5.9 万个高质量数学问答样本，覆盖算术运算、代数方程、几何应用、逻辑推理等多种题型。问题场景丰富，涵盖日常应用、学术训练等，旨在提升大语言模型（LLM）的数学问题解决能力。

直接使用：MathFusionQA 数学推理数据集 | 数据集 | HyperAI超神经

4. Institutional Books 1.0 图书数据集

Institutional Books 由 983,004 本公有领域书籍组成，书籍涵盖 254 种语言，主要出版于 19 世纪和 20 世纪。该数据集拥有 2,420 亿 token 标记、 3.86 亿页文本，有原始和后处理的 OCR 导出两种格式。

直接使用：Institutional Books 1.0 图书数据集 | 数据集 | HyperAI超神经

5. ReasonMed 医学推理数据集

ReasonMed 是目前最大的开源医学推理数据集，旨在对医学问答、文本生成等任务的模型进行训练与评估。该数据集包含 37 万个高质量的问答示例，覆盖临床知识、解剖学、遗传学等多个领域。

直接使用：ReasonMed 医学推理数据集 | 数据集 | HyperAI超神经

6. Miriad-5.8M 医学问答数据集

该数据集包含 582 万个医学问答对，涵盖了从基础科学到临床实践的各个方面，MIRIAD 提供了结构化的高质量问答对，支持 RAG 、医学检索、幻觉检测和指令调整等各种下游任务。

直接使用：Miriad-5.8M 医学问答数据集 | 数据集 | HyperAI超神经

7. Common Corpus 大规模开放文本数据集

该数据集是目前规模最大的开放许可文本数据集，包含 2 万亿个 token，覆盖书籍、科学文献、代码、法律文档等多领域内容；主语言为英语和法语，还包含 8 种超 100 亿 token 语言（德 / 西 / 意等）和 33 种超 10 亿 token 语言。

直接使用：Common Corpus 大规模开放文本数据集 | 数据集 | HyperAI超神经

8. HLE 人类问题推理基准数据集

HLE 旨在构建覆盖人类知识前沿的终极封闭式评估体系。该数据集包含 2,500 道题目，覆盖数学、人文科学、自然科学等数十个学科，其中包含适合自动评分的选择题和简答题。

直接使用：HLE 人类问题推理基准数据集 | 数据集 | HyperAI超神经

9. MedCaseReasoning 医学案例推理数据集

MedCaseReasoning 包含 13,000 个病例，覆盖内科、神经科、感染性疾病、心内科等多个学科。该数据集整合了多专科临床案例的完整诊疗流程，覆盖疾病诊断、鉴别分析及治疗决策等核心任务，旨在为医学大语言模型的推理能力评估提供标准化资源。

直接使用：MedCaseReasoning 医学案例推理数据集 | 数据集 | HyperAI超神经

10. FineHARD 图文对齐数据集

FineHARD 是一个开源高质量图文对齐数据集。该数据集以规模化与精细化为特色，包含 1,200 万张图像及其对应的长、短描述文本，覆盖 4,000 万个边界框。

直接使用：FineHARD 图文对齐数据集 | 数据集 | HyperAI超神经

公共教程精选

本周汇总了 4 类优质公共教程:

*大模型部署教程：5 个

*多模态处理教程：4 个

*三维重建教程：3 个

*OCR 识别教程：2 个

大模型部署教程

1. vLLM+Open WebUI 部署 KernelLLM-8B

KernelLLM 旨在将 PyTorch 模块自动翻译为高效的 Triton 内核代码，从而简化和加速高性能 GPU 编程的过程。该模型基于 Llama 3.1 Instruct 架构，拥有 80 亿参数，专注于生成高效的 Triton 内核实现。

在线运行：vLLM+Open WebUI 部署 KernelLLM-8B | 教程 | HyperAI超神经

2. vLLM+Open WebUI 部署 MiniCPM4-8B

MiniCPM 4.0 通过稀疏架构、量化压缩、高效推理框架等技术，实现了低计算成本下的高性能推理，特别适合长文本处理、隐私敏感场景和边缘计算设备部署。该模型在处理长序列时，相较于 Qwen3-8B 显示出明显更快的处理速度。

在线运行：vLLM+Open WebUI 部署 MiniCPM4-8B | 教程 | HyperAI超神经

3. vLLM+Open WebUI 部署 FairyR1-14B-Preview

FairyR1-14B-Preview 专注于数学与代码任务，该模型基于 DeepSeek-R1-Distill-Qwen-32B 基座，通过结合微调与模型合并技术构建。

在线运行：vLLM+Open WebUI 部署 FairyR1-14B-Preview | 教程 | HyperAI超神经

4. Qwen3-Embedding 系列模型对比评估教程

Qwen3 Embedding 系列代表了多种文本嵌入和排名任务的重大进步，包括文本检索、代码检索、文本分类、文本聚类和双文本挖掘。

通过本教程，将系统了解嵌入式模型与重排序模型的核心概念，并掌握如何在实际场景中选型与应用。

在线运行：Qwen3-Embedding 系列模型对比评估教程 | 教程 | HyperAI超神经

5. vLLM+Open WebUI 部署 Devstral-Small-2505

Devstral 擅长使用工具探索代码库、编辑多个文件以及驱动软件工程代理。该模型在 SWE-bench 上表现出色，成为该基准测试中排名第一的开源模型。

在线运行：vLLM+Open WebUI 部署 Devstral-Small-2505 | 教程 | HyperAI超神经

多模态处理教程

1. 一键部署 VideoLLaMA3-7B

VideoLLaMA3 是一个专注于图像与视频理解任务的开源多模态基础模型，通过以视觉为中心的架构设计与高质量数据工程，显著提升了视频理解的精度与效率。

本教程算力资源采用单卡 RTX 4090，部署的模型为 VideoLLaMA3-7B-Image，提供了视频理解和图像理解两个例子。

在线运行：一键部署 VideoLLaMA3-7B | 教程 | HyperAI超神经

2. Step1X-Edit：图像编辑神器

Step1X-Edit 具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力。支持 11 类高频图像编辑任务类型，如文字替换、风格迁移、材质变换、人物修图等。

在线运行：Step1X-Edit：图像编辑神器 | 教程 | HyperAI超神经

Demo 示例

3. Chain-of-Zoom：超分辨率图像细节放大 Demo

Chain-of-Zoom 是一种链式缩放（CoZ）框架，该框架解决了现代单图像超分辨率（SISR）模型在要求放大远超该范围时会失效的问题。在 CoZ 框架中封装的标准 4 倍扩散 SR 模型能实现超过 256 倍的放大，同时保持高感知质量和保真度。

在线运行：Chain-of-Zoom：超分辨率图像细节放大 Demo | 教程 | HyperAI超神经

Demo 示例

4. Sa2VA：实现图像和视频的密集感知理解

Sa2VA 是第一个用于图像和视频密集感知理解的统一模型。与现有的多模态大型语言模型不同，这些模型通常仅限于特定的模态和任务，Sa2VA 支持广泛的图像和视频任务，包括指代分割和对话，只需最少的单次指令微调。

在线运行：Sa2VA：实现图像和视频的密集感知理解 | 教程 | HyperAI超神经

三维重建教程

1. Distill-Any-Depth：单目深度估计器

该项目通过蒸馏算法整合多个开源模型的优势，仅需少量无标签数据即可实现高精度深度估计，刷新了当前 SOTA（State-of-the-Art）性能。

在线运行：Distill-Any-Depth：单目深度估计器 | 教程 | HyperAI超神经

Demo 示例

2. VGGT：通用 3D 视觉模型

VGGT 是一种前馈神经网络，可在几秒钟内从一个、几个或数百个视图中直接推断场景的所有关键 3D 属性，包括外部和内部摄像机参数、点图、深度图和 3D 点轨迹。它还兼具简单性和高效性，可在一秒内完成重建，甚至超越了需要借助视觉几何优化技术进行后处理的替代方法。

在线运行：VGGT：通用 3D 视觉模型 | 教程 | HyperAI超神经

3. UniDepthV2：通用单目度量深度估计

UniDepthV2 能够跨域仅从单张图像重建度量三维场景。与现有的 MMDE 范式不同，UniDepthV2 在推理时直接从输入图像预测度量三维点，无需任何额外信息，力求实现通用且灵活的 MMDE 解决方案。

在线运行：UniDepthV2：通用单目度量深度估计 | 教程 | HyperAI超神经

OCR 识别教程

1. MonkeyOCR：基于结构-识别-关系三元组范式的文档解析

MonkeyOCR 支持高效地将非结构化文档内容转换为结构化信息。该模型支持多种文档类型，包括学术论文、教科书和报纸等，适用多种语言，为文档数字化和自动化处理提供强大的支持。

在线运行：MonkeyOCR：基于结构-识别-关系三元组范式的文档解析 | 教程 | HyperAI超神经

2. Nanonets-OCR-s：文档信息提取和基准测试工具

Nanonets-OCR-s 能识别文档中的多种元素，比如数学公式、图片、签名、水印、复选框和表格，并将它们整理成结构化的 Markdown 格式。这种能力让它在处理复杂文档时表现出色，比如学术论文、法律文件或商业报表。

本教程采用资源为单卡 RTX 4090，该教程包含两个功能：从文档中提取信息和图像，PDF 转成 Markdown 。

在线运行：Nanonets-OCR-s：文档信息提取和基准测试工具 | 教程 | HyperAI超神经

💡我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们添加神经星星（微信号：Hyperai01）备注【SD 教程】，入群探讨各类技术问题、分享应用效果~

本周论文推荐

1.FocalAD: Local Motion Planning for End-to-End Autonomous Driving

本文提出了 FocalAD，这是一个新颖的端到端自动驾驶框架，它专注于关键的局部邻居，并通过增强局部运动表征来优化规划。具体而言，FocalAD 包含两个核心模块：自主-局部-智能体交互器（ELAI）和 Focal -局部-智能体损失（FLA Loss）。

论文链接：FocalAD：端到端自动驾驶的局部运动规划 | 最新论文 | HyperAI超神经

2.Biomni: A General-Purpose Biomedical Al Agent

本文推出了 Biomni：一款通用型生物医学人工智能助手，旨在自主执行跨越多个生物医学子领域的广泛研究任务。为了系统地绘制生物医学行动空间，Biomni 利用行动发现代理从 25 个生物医学领域的数万篇文献中挖掘关键工具、数据库和协议，创建了首个统一的智能体环境。

论文链接：Biomni：一款通用型生物医学人工智能助手 | 最新论文 | HyperAI超神经

3.SeerAttention-R: Sparse Attention Adaptation for Long Reasoning

本文介绍了 SeerAttention-R，这是一种专为推理模型长解码设计的稀疏注意力框架。该框架扩展自 SeerAttention，保留了通过自蒸馏门控机制学习注意力稀疏性的设计，同时去除了查询池化以适应自回归解码。借助轻量级插入门控机制，SeerAttention-R 具有灵活性，可以轻松集成到现有的预训练模型中而无需修改原始参数。

论文链接：SeerAttention-R：用于长推理的稀疏注意力适应 | 最新论文 | HyperAI超神经

4.Text-Aware Image Restoration with Diffusion Models

本文提出了一种多任务扩散框架——TeReDiff，该框架将扩散模型的内部特征整合到一个文本检测模块中，使得两个组件都能从联合训练中受益。这使它能够提取丰富的文本表示，并在后续去噪步骤中作为提示使用。

论文链接：基于文本的图像修复与扩散模型 | 最新论文 | HyperAI超神经

5.Unified differentiable learning of electric response

本文实现了一个等变机器学习框架，其中响应特性源于广义势函数与施加的外场之间的精确微分关系。该方法专注于对电场的响应，在一个统一的模型中预测电焓、力、极化、玻恩电荷和极化率，该模型强制执行全套精确的物理约束、对称性和守恒定律。

论文链接：https://go.hyper.ai/AO8dM

更多 AI 前沿论文：最新论文 | HyperAI超神经