OpenBayes 一周速览丨中文理解能力登顶！「小红书味」超重的大模型 dots.llm1 开源；单图重建三维场景，UniDepthV2 助力3D场景设计

最新推荐文章于 2025-11-03 14:03:42 发布

原创最新推荐文章于 2025-11-03 14:03:42 发布 · 1k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#图像处理 #人工智能 #图像编辑 #推理模型 #数据集 #机器学习 #深度学习

资源上新专栏收录该内容

42 篇文章

订阅专栏

公共资源速递

6 个公共数据集：

* LEXam 法律推理基准数据集

* Llamg-Nemotron 推理数据集

* DeepTheorem 定理证明数据集

* Eye Detection 眼睛检测数据集

* OpenCodeReasoning 编程推理数据集

* GeneralThought-430K 大规模推理数据集

2 个公共模型：

* MiniMind2

* dots.llm1.inst

11 个公共教程：

深度估计 * 2

语音生成与理解 * 2

多模态理解与生成 * 7

访问官网立即使用：openbayes.com

公共数据集

1. LEXam 法律推理基准数据集

LEXam 数据集包含来自瑞士苏黎世大学法学院的 340 场不同课程、不同级别（本科与硕士）的真实法律考试，覆盖瑞士、欧洲及国际法，以及法学理论和法律历史领域。

* 直接使用：

OpenBayes 控制台

2. Llamg-Nemotron 推理数据集

Llama-Nemotron 数据集包含数学数据约 2,206 万、代码数据约 1,010 万，其余为科学、指令跟随等领域数据，数据由 Llama-3.3-70B-Instruct、DeepSeek-R1、Qwen-2.5 等多模型协同生成，涵盖多样化推理风格与解题路径，满足大规模模型训练的多样性需求。

* 直接使用：

OpenBayes 控制台

3. DeepTheorem 定理证明数据集

DeepTheorem 数据集包含 12.1 万个 IMO 级别的非形式化定理和证明，涵盖多个数学领域。每个定理-证明对均经过严格注释，旨在通过基于自然语言的非形式化定理证明来增强大型语言模型（LLM）的数学推理能力。

* 直接使用：

OpenBayes 控制台

4. Eye Detection 眼睛检测数据集

Eye Detection 数据集是一个眼部检测数据集，包含近 2,000 张标注清晰的眼部区域图像，可用于训练 RCNN、YOLO 等目标检测模型，用于追踪和检测眼球区域，该数据集可用于构建白内障检测模型、眼动追踪模型等。

* 直接使用：

OpenBayes 控制台

数据集示例

5. OpenCodeReasoning 编程推理数据集

OpenCodeReasoning 数据集包含了 735,255 个样本，覆盖 28,319 道独特的编程题目，是当前最大的推理型编程数据集之一。该数据集旨在为大语言模型（LLMs）提供高质量的编程推理训练数据，推动代码生成与逻辑推理能力的提升。

* 直接使用：

OpenBayes 控制台

6. GeneralThought-430K 大规模推理数据集

GeneralThought-430K 数据集包含 43 万样本，覆盖数学、代码、物理、化学、自然科学、人文社科、工程技术等领域问题，包含来自多个推理模型的问题、参考答案、推理轨迹、最终答案及其他元数据，以供比较和评估。

* 直接使用：

OpenBayes 控制台

公共模型

1. MiniMind2

* 发布机构：MiniMind 团队

MiniMind2 初衷是拉低 LLM 的学习门槛，让每个人都能从理解每一行代码开始，从零开始亲手训练一个极小的语言模型。该项目所有核心算法代码均从 0 使用 PyTorch 原生重构，不依赖第三方库提供的抽象接口。这不仅是大语言模型的全阶段开源复现，也是一个入门 LLM 的教程。

* 直接使用：

OpenBayes 控制台

2. dots.llm1.inst

* 发布机构：小红书 hi lab

dots.llm1.inst 基于 Mixture of Experts（MoE）架构，总参数量达到 1,420 亿，但在推理时仅激活 140 亿参数，这种设计既保证了模型的强大性能，又提升了推理效率。该模型在 11.2 万亿高质量 token 数据上进行了预训练，并采用了高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术，显著提升了训练效率。

* 直接使用：

OpenBayes 控制台

公共教程

深度估计 * 2

1. UniDepthV2：通用单目度量深度估计

UniDepthV2 能够跨域仅从单张图像重建度量三维场景。与现有的 MMDE 范式不同，UniDepthV2 在推理时直接从输入图像预测度量三维点，无需任何额外信息，力求实现通用且灵活的 MMDE 解决方案。

本教程采用资源为单卡 RTX 4090，打开下方链接体验单图重建三维场景。

* 在线运行：

OpenBayes 控制台

模型示例

2. Distill-Any-Depth：单目深度估计器

Distill-Any-Depth 通过蒸馏算法整合多个开源模型的优势，仅需少量无标签数据即可实现高精度深度估计，刷新了当前 SOTA（State-of-the-Art）性能。

该教程算力资源采用单卡 RTX 4090，打开下方链接上传图片即可实现高精度深度估计。

* 在线运行：

OpenBayes 控制台

模型示例

语音生成与理解 * 2

1. Kimi-Audio：让 AI 听懂人类

Kimi-Audio-7B-Instruct 模型能够处理各种任务，如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话，在多项音频基准测试中达到 SOTA 水平。

该教程算力资源采用单卡 A6000，相关数据已配置完成，复制链接到网页，快速处理多音频任务。

* 在线运行： OpenBayes 控制台

模型界面示例

2. ChatterboxTTS：语音合成 Demo

Chatterbox 是首个支持情感夸张控制的开源 TTS 模型，基于 0.5 亿参数的 LLaMA 架构，使用超过 50 万小时的精选音频数据进行训练，支持多语言和多音色生成，性能超越了 ElevenLabs 等闭源系统。

该教程算力资源采用单卡 RTX 4090，提示词仅支持英文。打开下方链接，快速生成个性化语音。

* 在线运行：

OpenBayes 控制台

模型界面示例

多模态理解与生成 * 7

1. Flow-GRPO 流匹配模型

Flow-GRPO 开创性融合在线强化学习框架与流匹配理论，在 GenEval 2025 基准测试中取得突破性进展：SD 3.5 Medium 模型组合式生成准确率由基准值 63% 跃升至 95%，生成质量评估指标首次超越 GPT-4o。

本教程采用资源为单卡 RTX 4090，图像生成提示词仅支持英文。复制链接到网页，定制你的个性化图片。

* 在线运行：

OpenBayes 控制台

项目示例

2. Step1X-Edit：图像编辑神器

Step1X-Edit 旨在提供与 GPT-4o 和 Gemini2 Flash 等闭源模型相当的性能，模型采用多模态 LLM 来处理参考图像和用户的编辑指令，提取了潜在嵌入并将其与扩散图像解码器集成以获得目标图像。该模型总参数量为 19B（7B MLLM + 12B DiT），具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力；支持 11 类高频图像编辑任务类型，如文字替换、风格迁移、材质变换、人物修图等。

进入下方链接克隆模型，快速编辑图像。

* 在线运行：

OpenBayes 控制台

项目示例

3. 一键部署 VideoLLaMA3-7B

VideoLLaMA3 专注于图像与视频理解任务。通过以视觉为中心的架构设计与高质量数据工程，显著提升了视频理解的精度与效率。其轻量化版本（2B）兼顾端侧部署需求，而 7B 模型则为研究级应用提供顶级性能。7B 模型在通用视频理解、时间推理、长视频分析三大任务中均达 SOTA。

进入下方链接启动模型，一键识别图片和视频。

* 在线运行：

OpenBayes 控制台

项目示例

4. Vchitect-2.0 视频扩散模型 Demo

Vchitect-2.0 采用了创新的并行 Transformer 架构设计，拥有 20 亿参数，能够根据文本提示生成流畅、高质量的视频内容。

一键克隆启动，开启你的创作之旅。

* 在线运行：

OpenBayes 控制台

项目示例

5. Sa2VA：实现图像和视频的密集感知理解

Sa2VA 是第一个用于图像和视频密集感知理解的统一模型。与现有的多模态大型语言模型不同，这些模型通常仅限于特定的模态和任务，Sa2VA 支持广泛的图像和视频任务，包括指代分割和对话，只需最少的单次指令微调。

本教程采用资源为单卡 A6000，启动模型快速完成图像识别分割任务。

* 在线运行：

OpenBayes 控制台

项目示例

6. DescribeAnything「描述一切」模型 Demo

Describe Anything Model（DAM）能够根据用户指定的区域（点、框、涂鸦或蒙版）生成详细的描述。对于视频内容，只需在任意帧上标注区域即可获得完整的描述。

本教程采用资源为单卡 RTX 4090，进入下方链接，快速进行目标识别。

* 在线运行：

OpenBayes 控制台

项目示例

7. OmniConsistency：GPT-4o级的人物风格迁移模型

OmniConsistency 显著提升了视觉连贯性和美学质量，实现了与商业最先进模型 GPT-4o 相当的性能。填补了开源模型与商业模型（如 GPT-4o）在风格一致性上的性能差距，为 AI 创作提供了低成本、高可控的解决方案，推动了图像生成技术的民主化。其兼容性和即插即用特性也降低了开发者与创作者的使用门槛。

该教程算力资源采用单卡 RTX A6000，进入下方链接，快速生成多风格图像。

* 在线运行：

OpenBayes 控制台