OmniGen2多模态推理×自我纠正双引擎,引领图像生成新范式;95万分类标签!TreeOfLife-200M解锁物种认知新维度

近年来,生成式 AI 技术在图像领域取得显著突破,如 Stable Diffusion 系列、DALL-E3 等模型通过扩散模型实现了高质量文本到图像生成。然而,这些模型缺乏视觉生成通用模型所需的全面感知理解和生成能力。OmniGen 应运而生,基于扩散模型架构,为各种生成任务提供统一的解决方案,具备多任务处理能力,无需额外插件即可生成高质量图像。不可否认的是,该模型在多模态解耦与数据多样性方面仍存在局限。

为了克服这些困难并进一步提升系统的灵活性和表现力,OmniGen2 实现了重大突破,它为文本和图像模态配备了两条独立的解码路径,采用不共享参数和分离式图像标记器。这种设计使 OmniGen2 能够基于现有多模态理解模型构建,无需重新适配变分自动编码器输入,从而保留原始文本生成能力。

目前,HyperAI超神经官网已上线了「OmniGen2:探索高级多模态生成」教程,快来试试吧~

OmniGen2:探索高级多模态生成

在线使用:https://go.hyper.ai/fKbUP

6 月 30 日-7 月 4 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

* 优质教程精选:7 个

* 本周论文推荐:  5 篇

* 社区文章解读:5 篇

* 热门百科词条:5 条

* 7 月截稿顶会:4 个

访问官网:hyper.ai

公共数据集精选

1. ShareGPT-4o-Image 图像生成数据集

ShareGPT-4o-Image 是一个大规模、高质量的图像生成数据集,旨在将 GPT-4o 级别的图像生成能力迁移至开源多模态模型。该数据集中所有图像均由 GPT-4o 的图像生成功能生成,数据共包含来自 GPT-4o 的 92,256 个图像生成样本。

直接使用:https://go.hyper.ai/5G48Y

数据集概览

2. MAD-Cars 多视图汽车视频数据集

MAD-Cars 是一个大规模的野外多视图汽车视频数据集,大大扩展了现有公共多视图汽车数据集的范围。该数据集包含约 70,000 个汽车视频实例,每个实例平均 85 帧,大多数汽车实例的分辨率为 1920×1080,涵盖了约 150 个品牌的汽车,包括多种车型、颜色以及 3 种光照条件。

直接使用:https://go.hyper.ai/xuB9I

数据统计分析

3. Plants and Crops 农作物图像数据集

Plants and Crops 数据集是一个面向农业 AI 领域的综合性作物图像数据集,包含 10 万张标准化图像,覆盖全球广泛种植的 139 种作物。该数据集涵盖了作物从幼苗到开花、结果等多个生长阶段,图像内容涵盖叶片、茎秆、果实等多个结构部位,具备丰富的表征信息。所有图像均统一为 224×224 像素,以减少尺寸差异对模型训练的影响。

直接使用:https://go.hyper.ai/PLVJp

数据集示例

4. Multimodal-Textbook-6.5M 多模态教科书数据集

Multimodal-Textbook-6.5M 旨在增强多模态预训练,并扩展模型处理交错视觉和文本输入的能力。该数据集包含 650 万张图像与来自教学视频的 8 亿文本数据,所有图像和文本均从在线教学视频中提取,覆盖数学、物理、化学等 6 个基础学科。

直接使用:https://go.hyper.ai/q8Iin

5. IndicVault 印度问答对数据集

Indic Vault 是一个印度日常语言问答对数据集,适用于聊天机器人和语音助手的调优。该数据集包含以 2025 年印度各地使用的当代日常语言编写的问答对,捕捉了日常对话中使用的真实、口语化的表达,涵盖 20 个核心类别。

直接使用:https://go.hyper.ai/JhEUR

6. DREAM-1K 视频描述基准数据集

该数据集包含 1,000 个带注释且复杂程度各异的视频片段,数据来自 5 个不同的类别,每个视频片段都包含至少 1 个无法仅从单个帧准确识别的动态事件。每个视频都提供细粒度的手动注释,注释涵盖所有事件、动作和运动。

直接使用:https://go.hyper.ai/AgOm0

7. Brain MRI 脑肿瘤检测分析数据集

Brain MRI 包含来自不同患者的高质量多序列脑部 MRI 扫描。这些扫描包含 T1 加权、T2 加权、FLAIR 和弥散加权成像序列。该数据集涵盖多种类型的脑肿瘤,并与健康对照组进行比较,适合任何高级机器学习模型的开发和验证以及临床研究应用。

直接使用:https://go.hyper.ai/oZWNu

8AceReason-1.1-SFT 数学代码推理数据集

该数据集作为数学和代码推理模型 AceReason-Nemotron-1.1-7B 的 SFT 训练数据,数据集中的所有回答均由 DeepSeek-R1 生成。AceReason-1.1-SFT 数据集包含 2,668,741 个数学样本和 1,301,591 个代码样本,涵盖来自多个数据源的数据。该数据集进行了数据净化,并过滤了与数学和编码基准测试中任何测试样本有 9-gram 重叠的样本。

直接使用:https://go.hyper.ai/WGl1k

9. TreeOfLife-200M 生物视觉数据集

TreeOfLife-200M 是目前用于生物学计算机视觉模型的、规模最大且最多样化的公共机器学习就绪数据集。该数据集包含近 2.14 亿张图像,覆盖 95.2 万个物种类别,整合了来自 4 个核心生物多样性数据提供商的图像和元数据。

直接使用:https://go.hyper.ai/UKC0H

10. VL-Health 医疗推理生成数据集

VL-Health 是首个面向医疗多模态理解与生成的综合数据集。该数据集整合了 76.5 万理解任务样本和 78.3 万生成任务样本,覆盖 11 种医学模态和多类疾病场景。

直接使用:https://go.hyper.ai/GvKlu

公共教程精选

本周汇总了 3 类优质公共教程:

*图像生成与编辑教程:3 个

*3D 生成教程:2 个

*音频生成教程:2 个

图像生成与编辑教程

1. OmniGen2:探索高级多模态生成

OmniGen2 旨在为多种生成任务提供统一的解决方案,包括文本到图像生成、图像编辑和上下文生成。非共享参数和分离的图像分词器的设计使得 OmniGen2 能够在现有的多模态理解模型基础上进行构建,而无需重新适应 VAE 输入,保留了原有的文本生成能力。

在线运行:https://go.hyper.ai/fKbUP

图像编辑功能演示

2. FLUX.1-Kontext-dev:文本驱动的一键图像编辑

FLUX.1 Kontext 的图像编辑是广泛意义上的图像编辑,不仅支持图像局部编辑(对图像中的特定元素进行针对性修改,而不影响其余部分),还可以实现角色一致性(保留图像中的独特元素如参考角色或物体,使其在多个场景和环境中保持一致)。

在线运行:https://go.hyper.ai/PqRGn

项目示例

3. Flow-GRPO 流匹配文生图模型 Demo

该模型开创性融合在线强化学习框架与流匹配理论,在 GenEval 2025 基准测试中取得突破性进展:SD 3.5 Medium 模型组合式生成准确率由基准值 63% 跃升至 95%,生成质量评估指标首次超越 GPT-4o。

在线运行:https://go.hyper.ai/v7xkq

项目示例

3D 生成教程

1. Hunyuan3D-2.1:支持物理渲染纹理的 3D 生成模型

Tencent Hunyuan3D-2.1 作为工业级开源 3D 生成大模型,是一个可扩展的 3D 资产创建系统。它通过两个关键性的创新来推动尖端 3D 生成技术的发展:完全开源框架与基于物理的渲染纹理合成。同时,完整开放数据处理、训练推理代码等,为学术研究提供可复现基线,为工业落地降低重复开发成本。

在线运行:https://go.hyper.ai/0H91Z

效果展示

2. Direct3D‑S2:高分辨率 3D 生成框架

Direct3D‑S2 是一个高分辨率 3D 生成框架,基于稀疏体积表示和创新的空间稀疏注意力机制,大幅提升扩散变换器的计算效率,显著降低训练成本。该框架在生成质量和效率上均超越现有方法,为高分辨率 3D 内容创作提供强大的技术支持。

在线运行:https://go.hyper.ai/67LQM

Demo 示例

音频生成教程

1. PlayDiffusion:开源音频局部编辑模型

PlayDiffusion 将音频编码为离散的标记序列,对需要修改的部分进行掩码处理,用扩散模型在给定更新文本的条件下对掩码区域进行去噪,实现高质量的音频编辑。它能无缝保留上下文,确保语音的连贯性和自然性,同时支持高效的文本到语音合成提供了高度的时间一致性和可扩展性。

在线运行:https://go.hyper.ai/WTlI4

2. OuteTTS:语音生成引擎

OuteTTS 是一个开源文本到语音合成项目,其核心创新在于采用纯语言建模方法生成高质量语音,无需依赖传统 TTS 系统中的复杂适配器或外部模块,主要功能包括文本转语音合成和语音克隆。

在线运行:https://go.hyper.ai/eQVHL

💡我们还建立了 Stable Diffusion 教程交流群,欢迎小伙伴们扫码备注【SD教程】,入群探讨各类技术问题、分享应用效果~

本周论文推荐

1. GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

本文提出了 GLM-4.1V-Thinking,这是一种旨在推进通用多模态理解和推理的视觉-语言模型(VLM)。文中提出了强化学习与课程采样相结合的方法,以充分挖掘模型的潜力,从而在包括STEM问题解决、视频理解、内容识别、编程、指代消解、基于 GUI 的代理和长文档理解等多样化的任务中实现全面的能力提升。GLM-4.1V-9B-Thinking 在同等规模的开源模型中实现了最先进的性能,在长文档理解和 STEM 推理等挑战性任务上也展现出与闭源模型如 GPT-4o 相匹敌或更优的性能。

论文链接:https://go.hyper.ai/5UuYG

2. Ovis-U1 Technical Report

本文介绍了 Ovis-U1,这是一个拥有 30 亿参数的统一模型,集成了多模态理解、文本到图像生成和图像编辑功能。基于 Ovis 系列的基础,Ovis-U1 结合了一个扩散型视觉解码器和一个双向标记精炼器,使其在图像生成任务上能够与 GPT-4o 等领先模型相媲美。Ovis-U1 在 OpenCompass 多模态学术基准测试中得分为 69.6,超过了近期的最先进模型如  Ristretto-3B 和 SAIL-VL-1.5-2B 。

论文链接:https://go.hyper.ai/7Q8JV

3. BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

本文提出了 BlenderFusion,这是一种生成性的视觉合成框架,通过重组物体、摄像机和背景来合成新的场景。该框架遵循分层-编辑-合成的流程: 将视觉输入分割并转换为可编辑的 3D 实体; 在Blender中使用基于 3D 的控制进行编辑 ;使用生成性合成器将它们融合成一个连贯的场景。实验结果表明,BlenderFusion 在复杂的组合场景编辑任务中显著优于先前的方法。

论文链接:https://go.hyper.ai/YoirX

4. SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

本文介绍了 SciArena,这是一个开放且协作的平台,用于评估基础模型在科学文献任务中的表现。与传统的科学文献理解和综合基准不同,SciArena 直接吸引研究社区参与,采用类似于 Chatbot Arena 的评价方法,即通过社区投票对模型进行比较。目前,该平台支持 23 个开源和专有基础模型,并已从多个科学领域的可信研究人员那里收集了超过 13,000 票。

论文链接:https://go.hyper.ai/oPbpP

5. SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

本文引入了 SPIRAL,一种自我博弈框架,其中模型通过与不断改进的自身版本进行多轮次、零和游戏的对抗来学习,从而消除了对人类监督的需求。为了实现大规模的自我博弈训练,研究人员实现了一个完全在线的、多轮次、多代理的强化学习系统,并提出了角色条件下的优势估计以稳定多代理训练。使用  SPIRAL 进行零和游戏的自我博弈训练可以产生广泛迁移的推理能力。

论文链接:https://go.hyper.ai/n7J4m

更多 AI 前沿论文:https://go.hyper.ai/iSYSZ

社区文章解读

1. 超材料设计破局!Meta AI 等提出 UNIMATE,首次实现拓扑生成/性能预测等任务的统一建模

弗吉尼亚理工学院和 Meta AI 的研究团队提出了一种名为 UNIMATE 的统一模型,通过创新的模型架构解决了当前超材料 AI 设计中的关键瓶颈,首次实现了对超材料设计三大核心要素,即三维拓扑结构、密度条件和力学性能的统一建模与协同处理。

查看完整报道:https://go.hyper.ai/1x8iJ

2. 内含教程丨医疗 VLM 新突破!HealthGPT 对复杂 MRI 模态理解准确率达 99.7%,单一模型可处理多类生成任务

浙江大学联合中国电子科技大学等团队提出 HealthGPT 模型,通过创新性的异构知识适配框架,成功构建了首个统一医疗多模态理解与生成的大规模视觉语言模型,为医疗 AI 的发展开辟了新路径,相关成果已入选 ICML 2025。

查看完整报道:https://go.hyper.ai/F7W6a

3. 蛋白质结构预测/功能注释/交互识别/按需设计,中国海洋大学张树刚团队直击蛋白质智能计算核心任务

中国海洋大学计算机学院的张树刚副教授,在「蛋白智能计算体系构建及其应用」为题的演讲中,围绕蛋白质研究领域的传统挑战,系统阐述了智能计算技术带来的革新突破,重点介绍了团队在功能注释、交互识别及设计优化等方向的研究成果。本文为张树刚副教授的演讲精华实录。

查看完整报道:https://go.hyper.ai/rTgSi

4. ICML 2025 丨慕尼黑工业大学等基于 SD3 开发卫星图像生成方法,构建当前最大规模遥感数据集

德国慕尼黑工业大学和瑞士苏黎世大学的团队提出以地理气候提示为条件并使用 Stable Diffusion 3(SD3)生成卫星图像的新方法,并创建了一个迄今为止最大、最全面的遥感数据集 EcoMapper。该数据集从 Sentinel-2 收集了来自全球 104,424 个地点的超 290 万张 RGB 卫星图像数据,涵盖 15 种土地覆盖类型和相应气候记录,为采用微调的 SD3 模型进行两种卫星图像生成方法奠定了基础。

查看完整报道:https://go.hyper.ai/1zpeD

5. CASP 或将停办!蛋白质结构预测风向标大赛因 NIH 断供而前途未卜

Science 发布独家报道称,美国国家卫生研究院(NIH)对 CASP 的资助已经消耗殆尽,而负责管理项目经费的加州大学戴维斯分校(UC Davis)虽然提供了紧急支持,但也将在 8 月 8 日耗尽,CASP 面临停办危机。

查看完整报道:https://go.hyper.ai/3kTMU

热门百科词条精选

1. KAN

2. Sigmoid 函数

3. 人机回圈 HITL

4. 检索增强生成 RAG

5. 强化微调 Reinforcement Fine-Tuning

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

7 月截稿顶会

7 月 11 日

7:59:59

POPL 2026

7 月 15日

7:59:59

SODA 2026

7 月 18 日

7:59:59

SIGMOD 2026

7 月 19 日

7:59:59

ICSE 2026

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1800+ 公开数据集提供国内加速下载节点

* 收录 600+ 经典及流行在线教程

* 解读 200+ AI4Science 论文案例

* 支持 600+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

最后推荐一个「创作者激励计划」,感兴趣的小伙伴扫码即可参与!

 往期推荐 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值