OpenBayes 一周速览丨中文理解能力登顶!「小红书味」超重的大模型 dots.llm1 开源;单图重建三维场景,UniDepthV2 助力3D场景设计

公共资源速递

6 个公共数据集:

* LEXam 法律推理基准数据集

* Llamg-Nemotron 推理数据集

* DeepTheorem 定理证明数据集

* Eye Detection 眼睛检测数据集

* OpenCodeReasoning 编程推理数据集

* GeneralThought-430K 大规模推理数据集

2 个公共模型:

* MiniMind2

* dots.llm1.inst

11 个公共教程:

深度估计 * 2

语音生成与理解 * 2

多模态理解与生成 * 7

访问官网立即使用:openbayes.com

公共数据集

1. LEXam 法律推理基准数据集

LEXam 数据集包含来自瑞士苏黎世大学法学院的 340 场不同课程、不同级别(本科与硕士)的真实法律考试,覆盖瑞士、欧洲及国际法,以及法学理论和法律历史领域。

* 直接使用:

OpenBayes 控制台

2. Llamg-Nemotron 推理数据集

Llama-Nemotron 数据集包含数学数据约 2,206 万、代码数据约 1,010 万,其余为科学、指令跟随等领域数据,数据由 Llama-3.3-70B-Instruct、DeepSeek-R1、Qwen-2.5 等多模型协同生成,涵盖多样化推理风格与解题路径,满足大规模模型训练的多样性需求。

* 直接使用:

OpenBayes 控制台

3. DeepTheorem 定理证明数据集

DeepTheorem 数据集包含 12.1 万个 IMO 级别的非形式化定理和证明,涵盖多个数学领域。每个定理-证明对均经过严格注释,旨在通过基于自然语言的非形式化定理证明来增强大型语言模型(LLM)的数学推理能力。

* 直接使用:

OpenBayes 控制台

4. Eye Detection 眼睛检测数据集

Eye Detection 数据集是一个眼部检测数据集,包含近 2,000 张标注清晰的眼部区域图像,可用于训练 RCNN、YOLO 等目标检测模型,用于追踪和检测眼球区域,该数据集可用于构建白内障检测模型、眼动追踪模型等。

* 直接使用:

OpenBayes 控制台

数据集示例

5. OpenCodeReasoning 编程推理数据集

OpenCodeReasoning 数据集包含了 735,255 个样本,覆盖 28,319 道独特的编程题目,是当前最大的推理型编程数据集之一。该数据集旨在为大语言模型(LLMs)提供高质量的编程推理训练数据,推动代码生成与逻辑推理能力的提升。

* 直接使用:

OpenBayes 控制台

6. GeneralThought-430K 大规模推理数据集

GeneralThought-430K 数据集包含 43 万样本,覆盖数学、代码、物理、化学、自然科学、人文社科、工程技术等领域问题,包含来自多个推理模型的问题、参考答案、推理轨迹、最终答案及其他元数据,以供比较和评估。

* 直接使用:

OpenBayes 控制台

公共模型

1. MiniMind2

* 发布机构:MiniMind 团队

MiniMind2 初衷是拉低 LLM 的学习门槛,让每个人都能从理解每一行代码开始, 从零开始亲手训练一个极小的语言模型。该项目所有核心算法代码均从 0 使用 PyTorch 原生重构,不依赖第三方库提供的抽象接口。这不仅是大语言模型的全阶段开源复现,也是一个入门 LLM 的教程。

* 直接使用:

OpenBayes 控制台

2. dots.llm1.inst

* 发布机构:小红书 hi lab

dots.llm1.inst 基于 Mixture of Experts(MoE)架构,总参数量达到 1,420 亿,但在推理时仅激活 140 亿参数,这种设计既保证了模型的强大性能,又提升了推理效率。该模型在 11.2 万亿高质量 token 数据上进行了预训练,并采用了高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术,显著提升了训练效率。

* 直接使用:

OpenBayes 控制台

公共教程

深度估计 * 2

1. UniDepthV2:通用单目度量深度估计

UniDepthV2 能够跨域仅从单张图像重建度量三维场景。与现有的 MMDE 范式不同,UniDepthV2 在推理时直接从输入图像预测度量三维点,无需任何额外信息,力求实现通用且灵活的 MMDE 解决方案。

本教程采用资源为单卡 RTX 4090,打开下方链接体验单图重建三维场景。

* 在线运行:

OpenBayes 控制台

模型示例

2. Distill-Any-Depth:单目深度估计器

Distill-Any-Depth 通过蒸馏算法整合多个开源模型的优势,仅需少量无标签数据即可实现高精度深度估计,刷新了当前 SOTA(State-of-the-Art)性能。

该教程算力资源采用单卡 RTX 4090,打开下方链接上传图片即可实现高精度深度估计。

* 在线运行:

OpenBayes 控制台

模型示例

语音生成与理解 * 2

1. Kimi-Audio:让 AI 听懂人类

Kimi-Audio-7B-Instruct 模型能够处理各种任务,如自动语音识别(ASR)、音频问答(AQA)、自动音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话,在多项音频基准测试中达到 SOTA 水平。

该教程算力资源采用单卡 A6000,相关数据已配置完成,复制链接到网页,快速处理多音频任务。

* 在线运行: OpenBayes 控制台

模型界面示例

2. ChatterboxTTS:语音合成 Demo

Chatterbox 是首个支持情感夸张控制的开源 TTS 模型,基于 0.5 亿参数的 LLaMA 架构,使用超过 50 万小时的精选音频数据进行训练,支持多语言和多音色生成,性能超越了 ElevenLabs 等闭源系统。

该教程算力资源采用单卡 RTX 4090,提示词仅支持英文。打开下方链接,快速生成个性化语音。

* 在线运行:

OpenBayes 控制台

模型界面示例

多模态理解与生成 * 7

1. Flow-GRPO 流匹配模型

Flow-GRPO 开创性融合在线强化学习框架与流匹配理论,在 GenEval 2025 基准测试中取得突破性进展:SD 3.5 Medium 模型组合式生成准确率由基准值 63% 跃升至 95%,生成质量评估指标首次超越 GPT-4o。

本教程采用资源为单卡 RTX 4090,图像生成提示词仅支持英文。复制链接到网页,定制你的个性化图片。

* 在线运行:

OpenBayes 控制台

项目示例

2. Step1X-Edit:图像编辑神器

Step1X-Edit 旨在提供与 GPT-4o 和 Gemini2 Flash 等闭源模型相当的性能,模型采用多模态 LLM 来处理参考图像和用户的编辑指令,提取了潜在嵌入并将其与扩散图像解码器集成以获得目标图像。该模型总参数量为 19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。

进入下方链接克隆模型,快速编辑图像。

* 在线运行:

OpenBayes 控制台

项目示例

3. 一键部署 VideoLLaMA3-7B

VideoLLaMA3 专注于图像与视频理解任务。通过以视觉为中心的架构设计与高质量数据工程,显著提升了视频理解的精度与效率。其轻量化版本(2B)兼顾端侧部署需求,而 7B 模型则为研究级应用提供顶级性能。7B 模型在通用视频理解、时间推理、长视频分析三大任务中均达 SOTA。

进入下方链接启动模型,一键识别图片和视频。

* 在线运行:

OpenBayes 控制台

项目示例

4. Vchitect-2.0 视频扩散模型 Demo

Vchitect-2.0 采用了创新的并行 Transformer 架构设计,拥有 20 亿参数,能够根据文本提示生成流畅、高质量的视频内容。

一键克隆启动,开启你的创作之旅。

* 在线运行:

OpenBayes 控制台

项目示例

5. Sa2VA:实现图像和视频的密集感知理解

Sa2VA 是第一个用于图像和视频密集感知理解的统一模型。与现有的多模态大型语言模型不同,这些模型通常仅限于特定的模态和任务,Sa2VA 支持广泛的图像和视频任务,包括指代分割和对话,只需最少的单次指令微调。

本教程采用资源为单卡 A6000,启动模型快速完成图像识别分割任务。

* 在线运行:

OpenBayes 控制台

项目示例

6. DescribeAnything「描述一切」模型 Demo

Describe Anything Model(DAM)能够根据用户指定的区域(点、框、涂鸦或蒙版)生成详细的描述。对于视频内容,只需在任意帧上标注区域即可获得完整的描述。

本教程采用资源为单卡 RTX 4090,进入下方链接,快速进行目标识别。

* 在线运行:

OpenBayes 控制台

项目示例

7. OmniConsistency:GPT-4o级的人物风格迁移模型

OmniConsistency 显著提升了视觉连贯性和美学质量,实现了与商业最先进模型 GPT-4o 相当的性能。填补了开源模型与商业模型(如 GPT-4o)在风格一致性上的性能差距,为 AI 创作提供了低成本、高可控的解决方案,推动了图像生成技术的民主化。其兼容性和即插即用特性也降低了开发者与创作者的使用门槛。

该教程算力资源采用单卡 RTX A6000,进入下方链接,快速生成多风格图像。

* 在线运行:

OpenBayes 控制台

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值