成本大幅降低!Distill-Any-Depth实现高精度深度估计;入选CVPR 2025!Real-IADD解锁工业检测新高度

单目度量深度估计是一种计算机视觉技术,旨在从单张 RGB 图像中预测绝对深度。这项技术在自动驾驶、增强现实、机器人技术和 3D 场景理解等领域有着广泛的应用。

零样本单目深度估计(MDE)通过统一深度分布以及借助大规模无标记数据,显著提升了泛化能力。但现有方法对待所有深度值都一致处理,这可能会导致伪标签中的噪声放大,从而降低蒸馏效果。基于此,浙江工业大学联合多个高校发布了 Distill-Any-Depth 。

Distill-Any-Depth 通过蒸馏算法整合多个开源模型的优势,仅需少量无标签数据即可实现高精度深度估计。相较于传统方法需要百万级标注需求,该项目仅需 2 万张无标签图像,大幅降低数据标注成本。

目前,HyperAI 超神经已上线了「Distill-Any-Depth: 单目深度估计器」教程,快来试试吧~

Distill-Any-Depth: 单目深度估计器

在线使用:Distill-Any-Depth:单目深度估计器 | 教程 | HyperAI超神经

6 月 16 日-6 月 20 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

* 优质教程精选:14 个

* 本周论文推荐: 5 篇

* 社区文章解读:5 篇

* 热门百科词条:5 条

* 7 月截稿顶会:5 个

访问官网:hyper.ai

公共数据集精选

1. Real-IAD D³ 工业异常检测数据集

Real-IAD D³ 是一个高精度多模态数据集,相关论文成果已被计算机视觉顶会 CVPR 2025 收录。该数据集包含了 20 个工业产品类别、 69 种缺陷类型,共计 8,450 个样本,其中正常样本 5,000 个,异常样本 3,450 个。

直接使用:Real-IAD D³ 工业异常检测数据集 | 数据集 | HyperAI超神经

数据收集流程

2. FLAIR HUB 多传感器法国土地数据集

FLAIR-HUB 覆盖 2,500 多平方公里的法国多样化生态气候和景观,涵盖 19 种土地覆盖类别和 23 种作物类别,包含 630 亿个手工标注的像素,同时整合了互补数据源。

直接使用:https://go.hyper.ai/4VvCI

数据类型

3. MathFusionQA 数学推理数据集

MathFusionQA 聚焦于数学问题的多步推理与求解,数据集包含 5.9 万个高质量数学问答样本,覆盖算术运算、代数方程、几何应用、逻辑推理等多种题型。问题场景丰富,涵盖日常应用、学术训练等,旨在提升大语言模型(LLM)的数学问题解决能力。

直接使用:MathFusionQA 数学推理数据集 | 数据集 | HyperAI超神经

4. Institutional Books 1.0 图书数据集

Institutional Books 由 983,004 本公有领域书籍组成,书籍涵盖 254 种语言,主要出版于 19 世纪和 20 世纪。该数据集拥有 2,420 亿 token 标记、 3.86 亿页文本,有原始和后处理的 OCR 导出两种格式。

直接使用:Institutional Books 1.0 图书数据集 | 数据集 | HyperAI超神经

5. ReasonMed 医学推理数据集

ReasonMed 是目前最大的开源医学推理数据集,旨在对医学问答、文本生成等任务的模型进行训练与评估。该数据集包含 37 万个高质量的问答示例,覆盖临床知识、解剖学、遗传学等多个领域。

直接使用:ReasonMed 医学推理数据集 | 数据集 | HyperAI超神经

6. Miriad-5.8M 医学问答数据集

该数据集包含 582 万个医学问答对,涵盖了从基础科学到临床实践的各个方面,MIRIAD 提供了结构化的高质量问答对,支持 RAG 、医学检索、幻觉检测和指令调整等各种下游任务。

直接使用:Miriad-5.8M 医学问答数据集 | 数据集 | HyperAI超神经

7. Common Corpus 大规模开放文本数据集

该数据集是目前规模最大的开放许可文本数据集,包含 2 万亿个 token,覆盖书籍、科学文献、代码、法律文档等多领域内容;主语言为英语和法语,还包含 8 种超 100 亿 token 语言(德 / 西 / 意等)和 33 种超 10 亿 token 语言。

直接使用:Common Corpus 大规模开放文本数据集 | 数据集 | HyperAI超神经

8. HLE 人类问题推理基准数据集

HLE 旨在构建覆盖人类知识前沿的终极封闭式评估体系。该数据集包含 2,500 道题目,覆盖数学、人文科学、自然科学等数十个学科,其中包含适合自动评分的选择题和简答题。

直接使用:HLE 人类问题推理基准数据集 | 数据集 | HyperAI超神经

9. MedCaseReasoning 医学案例推理数据集

MedCaseReasoning 包含 13,000 个病例,覆盖内科、神经科、感染性疾病、心内科等多个学科。该数据集整合了多专科临床案例的完整诊疗流程,覆盖疾病诊断、鉴别分析及治疗决策等核心任务,旨在为医学大语言模型的推理能力评估提供标准化资源。

直接使用:MedCaseReasoning 医学案例推理数据集 | 数据集 | HyperAI超神经

10. FineHARD 图文对齐数据集

FineHARD 是一个开源高质量图文对齐数据集。该数据集以规模化与精细化为特色,包含 1,200 万张图像及其对应的长、短描述文本,覆盖 4,000 万个边界框。

直接使用:FineHARD 图文对齐数据集 | 数据集 | HyperAI超神经

公共教程精选

本周汇总了 4 类优质公共教程:

*大模型部署教程:5 个

*多模态处理教程:4 个

*三维重建教程:3 个

*OCR 识别教程:2 个

大模型部署教程

1. vLLM+Open WebUI 部署 KernelLLM-8B

KernelLLM 旨在将 PyTorch 模块自动翻译为高效的 Triton 内核代码,从而简化和加速高性能 GPU 编程的过程。该模型基于 Llama 3.1 Instruct 架构,拥有 80 亿参数,专注于生成高效的 Triton 内核实现。

在线运行:vLLM+Open WebUI 部署 KernelLLM-8B | 教程 | HyperAI超神经

2. vLLM+Open WebUI 部署 MiniCPM4-8B

MiniCPM 4.0 通过稀疏架构、量化压缩、高效推理框架等技术,实现了低计算成本下的高性能推理,特别适合长文本处理、隐私敏感场景和边缘计算设备部署。该模型在处理长序列时,相较于 Qwen3-8B 显示出明显更快的处理速度。

在线运行:vLLM+Open WebUI 部署 MiniCPM4-8B | 教程 | HyperAI超神经

3. vLLM+Open WebUI 部署 FairyR1-14B-Preview

FairyR1-14B-Preview 专注于数学与代码任务,该模型基于 DeepSeek-R1-Distill-Qwen-32B 基座,通过结合微调与模型合并技术构建。

在线运行:vLLM+Open WebUI 部署 FairyR1-14B-Preview | 教程 | HyperAI超神经

4. Qwen3-Embedding 系列模型对比评估教程

Qwen3 Embedding 系列代表了多种文本嵌入和排名任务的重大进步,包括文本检索、代码检索、文本分类、文本聚类和双文本挖掘。

通过本教程,将系统了解嵌入式模型与重排序模型的核心概念,并掌握如何在实际场景中选型与应用。

在线运行:Qwen3-Embedding 系列模型对比评估教程 | 教程 | HyperAI超神经

5. vLLM+Open WebUI 部署 Devstral-Small-2505

Devstral 擅长使用工具探索代码库、编辑多个文件以及驱动软件工程代理。该模型在 SWE-bench 上表现出色,成为该基准测试中排名第一的开源模型。

在线运行:vLLM+Open WebUI 部署 Devstral-Small-2505 | 教程 | HyperAI超神经

多模态处理教程

1. 一键部署 VideoLLaMA3-7B

VideoLLaMA3 是一个专注于图像与视频理解任务的开源多模态基础模型,通过以视觉为中心的架构设计与高质量数据工程,显著提升了视频理解的精度与效率。

本教程算力资源采用单卡 RTX 4090,部署的模型为 VideoLLaMA3-7B-Image,提供了视频理解和图像理解两个例子。

在线运行:一键部署 VideoLLaMA3-7B | 教程 | HyperAI超神经

2. Step1X-Edit:图像编辑神器

Step1X-Edit 具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力。支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。

在线运行:Step1X-Edit:图像编辑神器 | 教程 | HyperAI超神经

Demo 示例

3. Chain-of-Zoom:超分辨率图像细节放大 Demo

Chain-of-Zoom 是一种链式缩放(CoZ)框架,该框架解决了现代单图像超分辨率(SISR)模型在要求放大远超该范围时会失效的问题。在 CoZ 框架中封装的标准 4 倍扩散 SR 模型能实现超过 256 倍的放大,同时保持高感知质量和保真度。

在线运行:Chain-of-Zoom:超分辨率图像细节放大 Demo | 教程 | HyperAI超神经

Demo 示例

4. Sa2VA:实现图像和视频的密集感知理解

Sa2VA 是第一个用于图像和视频密集感知理解的统一模型。与现有的多模态大型语言模型不同,这些模型通常仅限于特定的模态和任务,Sa2VA 支持广泛的图像和视频任务,包括指代分割和对话,只需最少的单次指令微调。

在线运行:Sa2VA:实现图像和视频的密集感知理解 | 教程 | HyperAI超神经

三维重建教程

1. Distill-Any-Depth:单目深度估计器

该项目通过蒸馏算法整合多个开源模型的优势,仅需少量无标签数据即可实现高精度深度估计,刷新了当前 SOTA(State-of-the-Art)性能。

在线运行:Distill-Any-Depth:单目深度估计器 | 教程 | HyperAI超神经

Demo 示例

2. VGGT:通用 3D 视觉模型

VGGT 是一种前馈神经网络,可在几秒钟内从一个、几个或数百个视图中直接推断场景的所有关键 3D 属性,包括外部和内部摄像机参数、点图、深度图和 3D 点轨迹。它还兼具简单性和高效性,可在一秒内完成重建,甚至超越了需要借助视觉几何优化技术进行后处理的替代方法。

在线运行:VGGT:通用 3D 视觉模型 | 教程 | HyperAI超神经

3. UniDepthV2:通用单目度量深度估计

UniDepthV2 能够跨域仅从单张图像重建度量三维场景。与现有的 MMDE 范式不同,UniDepthV2 在推理时直接从输入图像预测度量三维点,无需任何额外信息,力求实现通用且灵活的 MMDE 解决方案。

在线运行:UniDepthV2:通用单目度量深度估计 | 教程 | HyperAI超神经

OCR 识别教程

1. MonkeyOCR:基于结构-识别-关系三元组范式的文档解析

MonkeyOCR 支持高效地将非结构化文档内容转换为结构化信息。该模型支持多种文档类型,包括学术论文、教科书和报纸等,适用多种语言,为文档数字化和自动化处理提供强大的支持。

在线运行:MonkeyOCR:基于结构-识别-关系三元组范式的文档解析 | 教程 | HyperAI超神经

2. Nanonets-OCR-s:文档信息提取和基准测试工具

Nanonets-OCR-s 能识别文档中的多种元素,比如数学公式、图片、签名、水印、复选框和表格,并将它们整理成结构化的 Markdown 格式。这种能力让它在处理复杂文档时表现出色,比如学术论文、法律文件或商业报表。

本教程采用资源为单卡 RTX 4090,该教程包含两个功能:从文档中提取信息和图像,PDF 转成 Markdown 。

在线运行:Nanonets-OCR-s:文档信息提取和基准测试工具 | 教程 | HyperAI超神经

💡我们还建立了 Stable Diffusion 教程交流群,欢迎小伙伴们添加神经星星(微信号:Hyperai01)备注【SD 教程】,入群探讨各类技术问题、分享应用效果~

本周论文推荐

1.FocalAD: Local Motion Planning for End-to-End Autonomous Driving

本文提出了 FocalAD,这是一个新颖的端到端自动驾驶框架,它专注于关键的局部邻居,并通过增强局部运动表征来优化规划。具体而言,FocalAD 包含两个核心模块:自主-局部-智能体交互器(ELAI)和 Focal -局部-智能体损失(FLA Loss)。

论文链接:FocalAD:端到端自动驾驶的局部运动规划 | 最新论文 | HyperAI超神经

2.Biomni: A General-Purpose Biomedical Al Agent

本文推出了 Biomni:一款通用型生物医学人工智能助手,旨在自主执行跨越多个生物医学子领域的广泛研究任务。为了系统地绘制生物医学行动空间,Biomni 利用行动发现代理从 25 个生物医学领域的数万篇文献中挖掘关键工具、数据库和协议,创建了首个统一的智能体环境。

论文链接:Biomni:一款通用型生物医学人工智能助手 | 最新论文 | HyperAI超神经

3.SeerAttention-R: Sparse Attention Adaptation for Long Reasoning

本文介绍了 SeerAttention-R,这是一种专为推理模型长解码设计的稀疏注意力框架。该框架扩展自 SeerAttention,保留了通过自蒸馏门控机制学习注意力稀疏性的设计,同时去除了查询池化以适应自回归解码。借助轻量级插入门控机制,SeerAttention-R 具有灵活性,可以轻松集成到现有的预训练模型中而无需修改原始参数。

论文链接:SeerAttention-R:用于长推理的稀疏注意力适应 | 最新论文 | HyperAI超神经

4.Text-Aware Image Restoration with Diffusion Models

本文提出了一种多任务扩散框架——TeReDiff,该框架将扩散模型的内部特征整合到一个文本检测模块中,使得两个组件都能从联合训练中受益。这使它能够提取丰富的文本表示,并在后续去噪步骤中作为提示使用。

论文链接:基于文本的图像修复与扩散模型 | 最新论文 | HyperAI超神经

5.Unified differentiable learning of electric response

本文实现了一个等变机器学习框架,其中响应特性源于广义势函数与施加的外场之间的精确微分关系。该方法专注于对电场的响应,在一个统一的模型中预测电焓、力、极化、玻恩电荷和极化率,该模型强制执行全套精确的物理约束、对称性和守恒定律。

论文链接:https://go.hyper.ai/AO8dM

更多 AI 前沿论文:最新论文 | HyperAI超神经

社区文章解读

1. 从石英到铁电材料,哈佛大学提出等变机器学习框架,加速材料大规模电场模拟

哈佛大学与博世公司的联合研究团队提出创新性解决方案,开发出电学响应的统一可微学习框架。该框架可在单一机器学习模型中同时学习广义势能及其对外部刺激的响应函数,克服了传统独立模型的固有缺陷,为晶体、无序及液态材料介电和铁电性质的高精度研究开辟了新路径。

查看完整报道:从石英到铁电材料,哈佛大学提出等变机器学习框架,加速材料大规模电场模拟 | 资讯 | HyperAI超神经

2. 早鸟票倒计时|TVM/Triton/TileLang 同台炫技,Meet AI Compiler 邀你一同解锁 AI 编译器的无限可能!

HyperAI 超神经将于 7 月 5 日在北京市中关村举办第 7 期 Meet AI Compiler 技术沙龙。本次活动邀请了来自 AMD 、沐曦集成电路、字节跳动、北京大学的 4 位资深专家,从底层编译到上层应用,多视角探索 AI 编译器的前沿实践。

查看完整报道:早鸟票倒计时|TVM/Triton/TileLang 同台炫技,Meet AI Compiler 邀你一同解锁 AI 编译器的无限可能! | 资讯 | HyperAI超神经

3. 整合多源植物转录组数据,山东理工大学等构建 PlantLncBoost 模型,跨物种 lncRNA 预测准确率最高达 96%

山东理工大学联合北京林业大学、广东省农业科学院、巴西圣保罗大学、英国罗莎琳德富兰克林医科大学、瑞典于默奥大学的研究团队等科研机构,共同构建了 PlantLncBoost 模型,为解决植物 lncRNA 鉴定的泛化性难题提供了系统性解决方案。

查看完整报道:整合多源植物转录组数据,山东理工大学等构建 PlantLncBoost 模型,跨物种 lncRNA 预测准确率最高达 96% | 资讯 | HyperAI超神经

4. MIT 团队利用大模型筛选 25 类水泥熟料替代材料,相当于减排 12 亿吨温室气体

麻省理工学院材料科学与工程系联合多部门团队开发出一种全新数据驱动方法,基于大语言模型(LLM)与多头神经网络架构,实现对水泥替代材料反应性的大规模预测与筛选。

查看完整报道:MIT 团队利用大模型筛选 25 类水泥熟料替代材料,相当于减排 12 亿吨温室气体 | 资讯 | HyperAI超神经

5. AI 论文周报|最大医疗推理数据集 ReasonMed 含 37 万样本;微软/北大/清华提出强化学习预训练,提升下一 Token 预测准确性

为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI 超神经官网(hyper.ai)现已上线「最新论文」板块,每天都会更新 AI 前沿研究论文,涵盖机器学习、计算语言、计算机视觉和模式识别、人机交互等多个垂直领域。

查看完整报道:https://go.hyper.ai/ttAl7

热门百科词条精选

1. DALL-E

2. 倒数排序融合 RRF

3. 帕累托前沿 Pareto Front

4. 大规模多任务语言理解 MMLU

5. 对比学习 Contrastive Learning

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

百科 | HyperAI超神经

7 月截稿顶会

7 月 2 日 7:59:59 VLDB 2026

7 月 11 日 7:59:59 POPL 2026

7 月 15 日 7:59:59 SODA 2026

7 月 18 日 7:59:59 SIGMOD 2026

7 月 19 日 7:59:59 ICSE 2026

一站式追踪人工智能学术顶会:顶会 | HyperAI超神经

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

### 关于 Distill-Any-Depth 模型的复现 Distill-Any-Depth 是一种用于单图像深度估计的方法,其核心思想在于通过蒸馏技术将复杂的大模型的知识迁移到更高效的轻量化模型中。以下是实现模型的关键步骤和技术细节: #### 1. 数据准备 为了训练 Distill-Any-Depth 模型,需要高质量的带标注的深度图数据集。常用的数据集包括 NYU Depth V2 和 KITTI。如果目标场景特定,则可以选择 WILD 数据集作为补充[^2]。 ```bash # 下载并解压数据集 (以NYU Depth V2为例) wget http://horatio.cs.nyu.edu/mit/silberman/nyu_depth_v2_labeled.mat ``` #### 2. 基础模型的选择 Distill-Any-Depth 的基础模型通常是一个预训练好的高性能深度估计网络(如 PyDNet 或 DORN)。这些模型可以在公开资源库中找到权重文件。 ```python import torch from pydnet import PyDNet # 假设已安装pydnet包 model = PyDNet() pretrained_weights = 'path_to_pydnet_pretrained.pth' state_dict = torch.load(pretrained_weights, map_location='cpu') model.load_state_dict(state_dict['state_dict']) ``` #### 3. 蒸馏策略设计 蒸馏过程涉及教师模型和学生模型之间的知识传递。具体来说,可以通过最小化预测分布间的 KL 散度来优化损失函数。 ```python def distillation_loss(student_output, teacher_output, temperature=4): student_softmax = torch.nn.functional.softmax(student_output / temperature, dim=-1) teacher_logsoftmax = torch.nn.functional.log_softmax(teacher_output / temperature, dim=-1) loss_kl = torch.nn.KLDivLoss()(student_softmax, teacher_logsoftmax) * (temperature ** 2) return loss_kl ``` #### 4. 训练脚本编写 基于上述组件,构建完整的训练流程如下所示: ```python import argparse parser = argparse.ArgumentParser(description="Train Distill-Any-Depth Model") parser.add_argument("--config", type=str, help="Path to configuration file.") args = parser.parse_args() if __name__ == "__main__": config_path = args.config # 加载配置参数 with open(config_path, 'r') as f: config = yaml.safe_load(f) # 初始化模型、优化器及损失函数 teacher_model = load_teacher_model() # 替换为实际加载逻辑 student_model = load_student_model() # 同理替换 optimizer = torch.optim.Adam(student_model.parameters(), lr=config.get('learning_rate', 0.0005)) for epoch in range(config['epochs']): for batch_data in dataloader: input_image, ground_truth = batch_data # 获取教师模型输出 with torch.no_grad(): teacher_pred = teacher_model(input_image).detach() # 学生模型前向传播 student_pred = student_model(input_image) # 计算总损失 total_loss = distillation_loss(student_pred, teacher_pred) + \ compute_mse_loss(student_pred, ground_truth) # MSE或其他回归损失 # 反向传播与更新 optimizer.zero_grad() total_loss.backward() optimizer.step() print(f"Epoch {epoch} Loss: {total_loss.item()}") # 打印日志信息 ``` 以上代码片段展示了如何设置一个基本的训练框架,并结合了蒸馏损失和其他可能存在的监督信号。 #### 5. 性能评估 完成训练后,应使用测试集合验证最终效果。推荐采用均方误差(MSE)、绝对相对误差(Abs Rel.)以及阈值精度等指标衡量性能表现。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值