OpenBayes-优快云博客

原创 SAM3 重塑场景分割边界；X-Dance 解锁图像驱动舞姿生成新难度

Eigen-Banana-Qwen-Image-Edit 是 Eigen AI 推出的基于 Qwen-Image-Edit 的 LoRA 适配模型，面向高质量且高效率的文本驱动图像编辑。基于视觉语言模型与流变换器架构的结合，FLUX.2 全面提升了图像生成的稳定性与真实感，为设计、广告与数字内容生产提供更高效的视觉创作能力。在图像与视频分割任务中，SAM3 的表现达到前代系统的两倍，并进一步扩展至 3D 重建领域，为家居预览、创意编辑与科研场景提供更强大的视觉基础能力。* SAM3：视觉分割模型。

2025-12-04 16:29:37 573

原创教程上新丨图像生成新SOTA，FLUX.2可同时参考10张图，实现超高角色/风格一致性

2024 年 FLUX.1 横空出世，在生成人物、尤其是真实人物的场景时，达到了接近真人实拍的效果。3.选择「NVIDIA RTX PRO 6000 Blackwell」以及「PyTorch」镜像，按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。实现了更精细的纹理细节、更锐利的质感表现及更稳定的光照效果，适用于产品拍摄、可视化呈现及摄影级应用场景。，在「公共教程」页面，选择「FLUX.2-dev：图像生成与编辑模型」教程。2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

2025-12-04 16:09:24 280

原创 Depth-Anything-3 打开全视角空间感知；CytoData 还原细胞级显微宇宙！

图像由标准化临床系统采集，并额外设置伪影类别，用于呈现血液涂片中的常见非细胞结构。UNO-Bench 是一个统一的全模态理解与推理评测基准，面向单模态与全模态任务构建，由 1,250 条全模态样本与 2,480 条单模态样本构成，共覆盖 44 类任务类型与 5 种模态组合。VERA 是一个面向语音原生推理能力评测的多任务语音数据集，包含 2,931 条语音原生推理样本，覆盖数学、网页检索、科学问题、长文本理解与事实性问答五类任务所有样本以语音形式原生呈现，并包含对话轮次、上下文文档及参考答案等结构化信息。

2025-11-27 20:06:26 802

原创教程上新丨美团开源视频生成模型LongCat-Video，兼具文生视频/图生视频/视频续写三大能力，媲美开闭源顶尖模型

在图生视频任务中，LongCat-Video 在视觉质量上值得关注，得分领先 Wan2.2 等其他模型，表明其在生成画面质量方面的突出优势。在这一框架中，视频生成模型通过其生成过程，逐步压缩并学习几何、语义、物理等多种知识形态，将示例图片上传后，输入 Prompt，在「Advanced Options」中可以对生成视频的负面提示词、分辨率、生成过程的随机性起点等参数进行更多设置，以实现更理想的生成效果。，在「公共教程」页面，选择「LongCat-Video：美团开源的 AI 视频生成模型」教程。

2025-11-27 18:18:25 665

原创 DiffVox 打造下一代声效模型；面部情感识别数据集让 AI 读心术成真！

模型结合动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型，可精准解析文本、表格、公式、图表等复杂文档结构，同时支持 109 种语言。依托高效量化技术与推理优化策略，SmolLM3-3B 能在资源受限的设备上稳定运行，并在多项任务中实现接近更大模型的表现，非常适合本地化部署与移动端 AI 应用落地。DeePMD-kit_Example 是 DeePMD-kit 提供的官方示例集，涵盖多种体系的训练样例、模型配置与分子动力学任务设置。* LongCat-Video：美团开源的AI视频生成模型。

2025-11-20 20:01:56 896

原创教程上新丨目标检测迈入「全局感知」时代：清华大学等发布 YOLOv13，实现速度、精度双突破

过去十年里，YOLO 系列凭借轻量高效的架构成为该领域的主流方案，从最初的 YOLO 到近年的 YOLOv11、YOLOv12，模型不断在速度与精度之间寻找新的平衡点。*感受野：视觉通路中，视网膜上的光感受器（杆体细胞和锥体细胞）接受光信号，转换为神经信号，影响外膝状体细胞和视觉皮层中的神经节细胞，这些神经节细胞的受刺激区域就叫做感受野（receptive field），不同的感觉种类有不同的感受野性质和大小。当状态变为「运行中」后，点击「API 地址」旁边的跳转箭头，即可跳转至 Demo 页面。

2025-11-20 19:40:18 730

原创跨语言智能再升级！Multi-LMentry 打造多语理解新基准；Nemotron-Personas-USA重塑虚拟人画像生成

Diabetes Health Indicators 数据集是一个用于糖尿病风险预测与公共卫生研究的综合基准，包含 31 个特征字段，覆盖人口属性、生活方式、病史与临床指标。Life Style Data 数据集是一个综合性的健康与生活方式分析基准，整合了个体在饮食、运动、生理指标和身体组成等多维度的数据，并以结构化 CSV 格式公开。Multi-LMentry 数据集是一个用于评估大型语言模型（LLMs）在多语言环境下基础语言理解与推理任务中的综合基准，涵盖英语、德语、西班牙语、韩语等九种语言。

2025-11-13 17:00:42 423

原创教程上新丨Deepseek-OCR 以极少视觉 token 数在端到端模型中实现 SOTA

这不再是简单的图像处理，3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像，按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。众所周知，大语言模型在处理千字、万字或是更长文本时，计算量往往急剧增加，甚至直接导致算力的「烧钱」游戏，也因此制约了 LLM 在处理高密度文本信息场景中的效率边界。DeepSeek-OCR 的发布，不仅仅是 OCR 任务的进步，更在长上下文压缩和探索 LLMs 中的记忆遗忘机制等前沿研究领域展示了巨大的潜力。

2025-11-13 16:46:13 557

原创 OCR 新范式！DeepSeek 以「视觉压缩」替代传统字符识别；Bald Classification数据集助力高精度人像分类

FDAbench-Full 数据集是一个用于评估数据代理（Data Agents）在异构数据分析任务中的表现的综合基准，包含 2,007 个高质量分析任务，覆盖不同数据领域、难度等级与任务类型，用于系统考察模型在数据库查询生成、SQL 理解以及金融数据分析中的能力。AutoDock-GPU_Output 数据集是一组由 AutoDock-GPU 生成的标准对接输出文件（.dlg），包含结合能、构象聚类与最终配体姿态等解析信息，可用于展示分子对接的完整结果格式并验证对接环境配置是否正常。

2025-11-06 18:31:31 493

原创教程上新丨端侧TTS新SOTA！NeuTTS-Air基于0.5B模型实现3秒音频克隆

进入 Demo 运行页面后，在「Reference Audio」上传参考音频，在「Reference Text」文本框中输入参考文本，将克隆后希望得到的音频文本内容输入「Text to Generate」，点击「Submit」后稍等片刻即可得到克隆音频。NeuTTS-Air 的发布，正值行业对高效、低延迟、高逼真度 TTS 需求激增之际，尤其是在端侧部署（On-Device）和即时语音克隆领域，它降低了开发者在移动和边缘设备上部署高质量 TTS 的门槛，让「超现实」的声音不再是云端大模型的专属。

2025-11-06 18:19:28 361

原创 Wan2.2-Animate-14B支持动作模仿和角色扮演，实现电影级角色动画生成；NWChem_Benchmark数据集上线

本数据集基于 NWChem 高性能计算化学软件生成，涵盖生物分子、纳米结构与固态材料的量子及经典混合计算数据，包含基态与激发态性质，采用高斯基函数与平面波两种计算方法，具备从单节点到数千处理器的高并行扩展能力，并支持分子性质与相对论效应的分析。Wan2.2-Animate-14B 同时支持动作模仿和角色扮演两种模式，能基于表演者的视频，精确复制面部表情和动作，生成高度逼真的角色动画视频。此外，MiMo-Audio-7B-Base 具备强大的语音续写能力，可生成高度逼真的脱口秀、朗诵、直播和辩论内容。

2025-10-30 19:34:48 529

原创教程上新丨多模态协同的视频生成框架HuMo-1.7B，实现图文声一体的视频创作体验

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像，按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。进入 Demo 运行页面后，在文本框内输入相关文字描述，并上传图片以及音频，根据需求调整相关参数，点击「Generate Video」即可生成视频。然而，当前多数模型大多依赖单一模态输入。HuMo 提出「协同多模态条件生成」的理念，将文本、参考图像与音频三种输入纳入同一生成模型中，并通过渐进式训练策略与时间自适应引导机制，通过在去噪步骤中动态调整引导权重，

2025-10-30 19:23:51 321

原创 MinerU系列最新迭代版本上线，专为高精度、高效率的文档解析任务设计；清华、字节联合推出HuMo，实现三模态协同生成人物视频

Smilei 是一个开源、易于使用的电磁粒子 - 网格（Particle-In-Cell, PIC）代码，旨在为激光 – 等离子体相互作用、粒子加速、强场 QED 和空间物理等领域提供一个高精度、高性能、可扩展的等离子体动力学模拟平台。支持从文本-图像（VideoGen from Text-Image）、文本-音频（VideoGen from Text-Audio）以及文本-图像-音频生成视频（VideoGen from Text-Image-Audio），为用户提供了更高的定制化和控制能力。

2025-10-24 20:12:22 837

原创教程上新丨MIT等推出BindCraft，直接调用AF2，实现蛋白质结合体的智能化设计

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像，按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。当状态变为「运行中」后，点击「打开工作空间」旁边的跳转箭头，即可跳转至 Demo 页面。那么，既然 AlphaFold 已经能理解蛋白结构，那能否让它自己反向「思考」，直接生成一个与目标完美契合的新蛋白？然而，传统的蛋白质结合物生成方法，例如免疫接种、抗体库筛选或定向进化，通常费力费时，并且对靶位的控制有限。但这仍非真正意义上的「智能设计」。

2025-10-24 19:51:27 610

原创教程上新｜重新定义下一代 OCR：IBM 最新开源 Granite-docling-258M，实现端到端的「结构+内容」统一理解

3. 选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像，按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。近期，IBM 开源轻量级多模态文档处理模型 Granite-Docling-258M，专为高效文档转换设计，能将文档转换为机器可读格式，同时完整保留布局、表格、公式等元素，实现端到端的全文文档转换。1. 登录 OpenBayes.com，在「公共教程」页面，选择「Granite-docling-258M：轻量多模态文档处理模型」教程。

2025-10-14 15:52:09 449

原创内含免费算力福利｜集群升级！RTX 5090 & RTX PRO 6000 重磅上线

本次活动将于 2025 年 10 月 17 日 23:59 (UTC+8) 停止兑换，兑换码数量有限，先到先得！即日起，「新用户注册赠送机制」&「邀请赠送机制」的免费赠送资源均由 RTX 4090 升级为 RTX 5090。9 月以来，开学季与顶会截稿高峰叠加，大家的计算任务排起了长龙，等得心急如焚？* 工作空间：100 GB。* 显存：32 GB。* 显存：96 GB。

2025-10-14 15:27:51 683

原创教程上新丨百倍提速，中科院团队发布首个国产类脑脉冲大模型SpikingBrain-1.0，推理效率数量级提升

内含一键部署教程

2025-10-11 16:18:57 934

原创 IndexTTS-2突破传统TTS模型情感表达和时长控制局限；LoongBench数据集含8K条样本，助力跨领域推理评测

ERNIE-4.5-21B-A3B-Thinking 是在 ERNIE-4.5-21B-A3B 基础上训练的深度思考模型，支持 128K 的上下文窗口，适用于需要长上下文的复杂推理任务。该模型突破了传统翻译模型在小语种适配、文化语境还原、长文本连贯性上的局限，支持中文、英语、德语、法语、西班牙语、日语、韩语等 28 种主流语言互译，在日常对话、专业文档（如技术手册、学术摘要）、多文化场景（如跨境营销文案）中均能保持优异的翻译质量。SEED-X-PPO-7B：强化学习优化的多语言翻译模型。

2025-09-28 11:36:49 967

原创教程上新丨41个案例中的生成成功率达100%，RFdiffusion2 基于化学反应实现原子级别蛋白质生成

3.选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像，按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。RFdiffusion2 采用了一种新的深度生成方法，能够基于与序列无关的功能团位置描述进行蛋白质设计，而无需进行反向旋转异构体生成。此前，生成式蛋白质设计模型 RFdiffusion 主要通过对理想活性位点的描述，实现精确固定位点的蛋白质结构生成。当状态变为「运行中」后，点击「打开工作空间」旁边的跳转箭头，即可跳转至 Demo 页面。

2025-09-25 19:40:17 526

原创今晚结束！参与开学季特惠，最高享 20% 超值返现

开学季特惠活动将于今晚 23:59 截止，还没参与的小伙伴不要错过喔～

2025-09-18 17:37:42 244

原创教程上新丨ACL机器翻译大赛30个语种摘冠，腾讯Hunyuan-MT-7B支持33种语言翻译

3.选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像，按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。另外值得一提的是，Hunyuan-MT-7B 在国际计算语言协会（ACL）WMT2025 比赛中，拿下了 31 种语言比赛中 30 项的冠军，表现可谓令人赞叹。当状态变为「运行中」后，点击「API 地址」旁边的跳转箭头，即可跳转至 Demo 页面。，在「公共教程」页面，选择「Hunyuan-MT-7B：翻译模型 Demo」教程。点击下方链接即可一键部署。

2025-09-18 17:00:08 553

原创 MiniCPM-V 4.5超强端侧多模态模型上线，性能速度兼具，端侧运行无压力；MedChatZH含超1K中医典籍，助力中医问诊

MedChatZH 数据来源于超过 1k 本中医典籍与医家笔记，以及从互联网与多家中国医院汇集的超过 700 万条中文医疗指令并结合 BELLE-3.5M 通用指令，经过筛选清理得到医药类指令 763,629 条、通用指令 1,305,194 条，共同组成用于对话微调的 med-mix-2M 数据集，与中医典籍语料配合，分别服务于继续预训练与指令微调两个阶段。MiniCPM-V 4.5 端侧部署友好，显存占用低，推理速度快，适合在车机、机器人等设备上应用，为端侧 AI 发展树立新标杆。

2025-09-11 17:14:47 926

原创教程上新 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音，重新定义TTS技术边界

微软最新开源的 VibeVoice-1.5B 模型，在 TTS 技术领域掀起了轩然大波，这款拥有 15 亿参数的模型，能够一次性生成长达 90 分钟的高自然度语音，并支持模拟最多 4 位不同说话者的对话，其官方盲测 MOS（平均意见分数）高达 4.5，接近真人语音质量。进入模型页面后，在「Number of Speakers」中选择说话人数，「Speaker 1-4」设置说话人，「Conversation Script」中输入对话文本，最后点击「Generate Podcast」生成。

2025-09-11 16:54:18 692

原创 MiniCPM-V 4.5超强端侧多模态模型上线，性能速度兼具，端侧运行无压力；MedChatZH含超1K中医典籍，助力中医问诊

MedChatZH 数据来源于超过 1k 本中医典籍与医家笔记，以及从互联网与多家中国医院汇集的超过 700 万条中文医疗指令并结合 BELLE-3.5M 通用指令，经过筛选清理得到医药类指令 763,629 条、通用指令 1,305,194 条，共同组成用于对话微调的 med-mix-2M 数据集，与中医典籍语料配合，分别服务于继续预训练与指令微调两个阶段。MiniCPM-V 4.5 端侧部署友好，显存占用低，推理速度快，适合在车机、机器人等设备上应用，为端侧 AI 发展树立新标杆。

2025-09-04 17:01:32 688

原创开学季狂欢特惠 | 最高可获 20% 超值返现！

充值返现金额不累计，单笔充值仅可享受一档优惠，且参与次数不设上限，多充多返；* 个人账户及组织账户均可参与充值返现活动，返现金额会直接充值到账户中；* 活动充值金额不支持退款，开票金额以实际充值金额为准，不含返现金额；* 单笔充值满￥1000（含）-4999（含），返现 18%* 单笔充值满￥100（含）-￥499（含），返现 10%* 单笔充值满￥500（含）-￥999（含），返现 15%* 单笔充值满￥50（含）-￥99（含），返现 5%* 单笔充值满￥5000（含），返现 20%

2025-09-04 16:44:23 314

原创 OpenBayes 一周速览丨公共模型一键部署功能上线！VibeVoice1.5B重新定义TTS技术边界，多人长对话一键生成

NVIDIA-Nemotron-Nano-9B-v2 作为 Nemotron 系列的混合架构优化版本，该模型创新性融合 Mamba 高效长序列处理与 Transformer 强语义建模能力，仅以 90 亿（9B）参数就实现了 128K 超长上下文支持，在边缘计算设备（如 RTX 4090 级 GPU）上的推理效率与任务性能，可对标同参数规模的前沿模型，标志着大语言模型在轻量化部署与长文本理解领域的重大突破。Qwen3-Thinking-2507 是 Qwen3 思维模型的延续，具有更高的推理质量和深度。

2025-08-29 14:54:17 974

原创 OpenBayes 教程上新丨英伟达力推小模型，小而精的Nemotron-Nano-9B-v2比Qwen3快6倍

NVIDIA 团队于 2025 年 8 月 19 日推出轻量级大语言模型 NVIDIA-Nemotron-Nano-9B-v2。作为 Nemotron 系列的混合架构优化版本，该模型创新性融合 Mamba 高效长序列处理与 Transformer 强语义建模能力，用 Mamba-2 状态空间层替换掉大部分自注意力层，让模型在处理长推理轨迹时速度更快。

2025-08-29 14:16:30 890

原创 OpenBayes 一周速览丨Qwen家族新秀，Qwen-Image-Edit 实现图片文字精准编辑；Nemotron 数据集含超 2K 万条样本，涵盖多领域

在非推理领域，Qwen3-4B-Instruct-2507 在知识、推理、编程、对齐以及 agengt 能力上全面超越了闭源的小尺寸模型 GPT-4.1-nano，且与中等规模的 Qwen3-30B-A3B（non-thinking）性能接近。CSEMOTIONS 数据集包含约 10 小时的高质量音频数据，涵盖 10 位专业配音演员（5 位男性、5 位女性）在中性、快乐、愤怒、悲伤、惊讶、厌恶、恐惧七种情绪类别下的音频，每种情绪均包含 500-700 句中文文本的录音。

2025-08-21 13:51:41 880

原创 OpenBayes 教程上新丨Qwen-Image 刷新图像编辑 SOTA，实现精准中文渲染

阿里通义千问团队开源首个图像生成基础模型 Qwen-Image，参数量达 20B，采用全新 MMDiT 架构，刷新了图像生成模型 SOTA。

2025-08-14 14:11:35 947

原创 OpenBayes 一周速览丨MiniCPM-V4.0图像理解能力突破，手机端也可轻松部署；含超20K样本，MathCaptcha10K助力训练验证码识别模型

MiniCPM-V4.0 在 OpenCompass 评测中图像理解能力超越了 GPT-4.1-mini-20250414、Qwen2.5-VL-3B-Instruct 和 InternVL2.5-8B。NonverbalTTS 数据集包含 17 小时的高质量语音数据，数据源自 2,296 名参与者（60% 男性，40% 女性），涵盖 10 种非语言语音类型（呼吸、笑声、叹息、打喷嚏、咳嗽、清嗓子、呻吟、咕哝、打鼾、吸气）、8 种情绪类别（愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶、其他）。

2025-08-14 13:52:28 724

原创 OpenBayes 一周速览丨李沐团队开源语音大模型Higgs Audio V2，扩展多语言对话等功能；MegaScience数据集上线，含125万实例

GPT-OSS-20b 参数约为 210 亿，运行时仅需 16GB 内存，在常见基准测试里，其表现与 o3-mini 相当，这种轻量化设计使得它在边缘设备上也能轻松部署，无论是在本地推理，还是在对基础设施要求严苛的快速迭代场景中，都能发挥出色的效能。Neta Lumina 基于上海人工智能实验室 Alpha-VLLM 团队开源的 Lumina-Image-2.0，利用海量、高质量的二次元风格图像及多语种标签数据，使模型具备强大的需求理解与诠释能力，非常适合插画、海报、分镜、角色设计等场景。

2025-08-11 11:48:11 703

原创 OpenBayes 教程上新丨一键部署 gpt-oss-20b，实测开源推理模型新 SOTA，性能直逼 o3‑mini

OpenAI 终于再度发布开源大模型——gpt-oss-120b 和 gpt-oss-20b，前者以千亿级参数专为复杂推理与知识密集型场景设计，后者则更适合低延迟、本地或专业垂直领域使用

2025-08-11 11:10:15 1050

原创 OpenBayes 教程上新丨仅激活 3B 参数可媲美 GPT-4o，Qwen3 深夜更新，一手实测来了！

聚焦官方给出的数据，这个非思考模式（non-thinking mode）的新模型，将长文本理解能力提升至 256K，仅激活 3B 参数，就能取得可媲美 Gemini 2.5-Flash（non-thinking）、GPT-4o 等顶尖闭源模型的超强性能。1.最近极端天气频发，北京接连暴雨后，上海又迎来了台风，让我们来问问 Qwen3-30B-A3B-Instruct-2507 上海台风和北京暴雨的是否有关系，看看它怎么回答。2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

2025-07-30 16:36:43 1226

原创 OpenBayes 一周速览丨Self Forcing 实现亚秒级延迟实时流视频生成；边缘AI新秀，LFM2-1.2B采用创新性架构超越传统模型

ArtVIP 数据集包含 26 个类别的 206 个铰接物体，涵盖家居用品、大型家具、大家电、小家电和小家具，还提供了 6 个数字孪生环境和 6 个完全交互环境，包括儿童房、饭厅、厨房、带客厅的厨房、大客厅和小客厅。Updesh 数据集包含 6,800,000 条推理数据及 2,100,000 条生成数据，其涉及的语言有阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥迪亚语、旁遮普语、泰米尔语、泰卢固语、乌尔都语。4. LFM2-1.2B：高效边缘部署的文本生成模型。

2025-07-30 16:18:51 1159

原创 OpenBayes 一周速览丨DiffuCode-7B-cpGRPO迭代式降噪方式可不按顺序生成代码；NextCoder数据集上线，超万条指令、对话样本

DiffuCoder-7B-cpGRPO 旨在通过迭代式降噪的方式进行代码的生成与编辑，而非传统的从左到右的自回归（Autoregressive）生成。该模型在继承 GLM 系列通用大模型能力的基础上，进一步强化了视觉理解和复杂推理能力，达到 10B 参数级别的视觉语言模型的最强性能，在 18 个榜单任务中持平甚至超过 8 倍参数量的 Qwen-2.5-VL-72B。Leukemia 数据集包含了约 6,778 张细胞的图像，其中正常细胞（3,389 张）和白血病细胞（3,389 张）。

2025-07-24 14:46:47 851

原创 OpenBayes 教程上新丨Mistral AI首个开源音频模型Voxtral，24B与3B版本兼顾多场景语音深度理解

Mistral AI 近期正式发布了首个先进音频模型 Voxtral，以开源高性能与低成本精准聚焦语音智能市场痛点。该模型提供 24B 和 3B 两种版本，前者适用于企业级规模化部署，后者则降低了个人轻量部署的准入门槛。

2025-07-24 14:17:08 566

原创 OpenBayes 一周速览丨字节EX-4D上线，实现单目视频到自由视角生成；GLM-4.1V-9B-Thinking开源，10B参数比肩Qwen系列

GLM-4.1V-9B-Thinking 专为复杂认知任务设计，支持图像、视频、文档等多模态输入。该模型在继承 GLM 系列通用大模型能力的基础上，进一步强化了视觉理解和复杂推理能力，达到 10B 参数级别的视觉语言模型的最强性能，在 18 个榜单任务中持平甚至超过 8 倍参数量的 Qwen-2.5-VL-72B。EX-4D 能从单目视频输入生成极端视角下的高质量 4D 视频。EX-4D 在极端视角下的性能显著优于现有方法，为 4D 视频生成提供新的解决方案。* EX-4D：实现单目视频到自由视角生成。

2025-07-17 14:52:06 421

原创 OpenBayes 教程上新丨一句话精准P图，FLUX.1 Kontext可实现图像编辑/风格迁移/文本编辑/角色一致性编辑

FLUX.1 Kontext 能够在无需复杂描述的情况下实现多种编辑任务，包括对象修改、风格转换、背景替换、角色一致性编辑和文本编辑等。

2025-07-17 14:23:34 452

原创 OpenBayes 一周速览丨3B参数多模态统一模型Ovis-U1-3B开源，实现单一框架完成多模态任务；Magenta RT实时音乐生成，可动态调整乐曲风格

Ovis-U1-3B 模型集成多模态理解、文本到图像生成和图像编辑三种核心能力，基于先进的架构和协同统一训练方式，实现高保真图像合成和高效的文本视觉交互。Kimi-Dev-72B 在 SWE-bench Verified 编程基准测试中达到 60.4% 的性能，凭借其仅 72 亿的参数量，一举夺魁，超越了近期发布、参数量高达 671 亿的新版 DeepSeek-R1，成为当前开源模型中的 SOTA。* Gemma-3n-E4B-it：先进的轻量级开放模型。* Ovis-U1-3B：多模态理解与生成模型。

2025-07-10 18:45:34 646

原创 OpenBayes 教程上新丨超分辨率框架Chain-of-Zoom引入VLM生成的多尺度感知文本提示，256倍放大并保持图像高保真度

KAIST AI 研究团队提出了创新的 Chain-of-Zoom（CoZ）框架，通过将超分辨率任务分解为一个自回归的中间尺度状态链，并结合多尺度感知提示，来实现极高倍率的放大。

2025-07-10 18:30:34 926

空空如也

空空如也