- 博客(165)
- 收藏
- 关注
原创 SAM3 重塑场景分割边界;X-Dance 解锁图像驱动舞姿生成新难度
Eigen-Banana-Qwen-Image-Edit 是 Eigen AI 推出的基于 Qwen-Image-Edit 的 LoRA 适配模型,面向高质量且高效率的文本驱动图像编辑。基于视觉语言模型与流变换器架构的结合,FLUX.2 全面提升了图像生成的稳定性与真实感,为设计、广告与数字内容生产提供更高效的视觉创作能力。在图像与视频分割任务中,SAM3 的表现达到前代系统的两倍,并进一步扩展至 3D 重建领域,为家居预览、创意编辑与科研场景提供更强大的视觉基础能力。* SAM3:视觉分割模型。
2025-12-04 16:29:37
573
原创 教程上新丨图像生成新SOTA,FLUX.2可同时参考10张图,实现超高角色/风格一致性
2024 年 FLUX.1 横空出世,在生成人物、尤其是真实人物的场景时,达到了接近真人实拍的效果。3.选择「NVIDIA RTX PRO 6000 Blackwell」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。实现了更精细的纹理细节、更锐利的质感表现及更稳定的光照效果,适用于产品拍摄、可视化呈现及摄影级应用场景。,在「公共教程」页面,选择「FLUX.2-dev:图像生成与编辑模型」教程。2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
2025-12-04 16:09:24
280
原创 Depth-Anything-3 打开全视角空间感知;CytoData 还原细胞级显微宇宙!
图像由标准化临床系统采集,并额外设置伪影类别,用于呈现血液涂片中的常见非细胞结构。UNO-Bench 是一个统一的全模态理解与推理评测基准,面向单模态与全模态任务构建,由 1,250 条全模态样本与 2,480 条单模态样本构成,共覆盖 44 类任务类型与 5 种模态组合。VERA 是一个面向语音原生推理能力评测的多任务语音数据集,包含 2,931 条语音原生推理样本,覆盖数学、网页检索、科学问题、长文本理解与事实性问答五类任务所有样本以语音形式原生呈现,并包含对话轮次、上下文文档及参考答案等结构化信息。
2025-11-27 20:06:26
802
原创 教程上新丨美团开源视频生成模型LongCat-Video,兼具文生视频/图生视频/视频续写三大能力,媲美开闭源顶尖模型
在图生视频任务中,LongCat-Video 在视觉质量上值得关注,得分领先 Wan2.2 等其他模型,表明其在生成画面质量方面的突出优势。在这一框架中,视频生成模型通过其生成过程,逐步压缩并学习几何、语义、物理等多种知识形态,将示例图片上传后,输入 Prompt,在「Advanced Options」中可以对生成视频的负面提示词、分辨率、生成过程的随机性起点等参数进行更多设置,以实现更理想的生成效果。,在「公共教程」页面,选择「LongCat-Video:美团开源的 AI 视频生成模型」教程。
2025-11-27 18:18:25
665
原创 DiffVox 打造下一代声效模型;面部情感识别数据集让 AI 读心术成真!
模型结合动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可精准解析文本、表格、公式、图表等复杂文档结构,同时支持 109 种语言。依托高效量化技术与推理优化策略,SmolLM3-3B 能在资源受限的设备上稳定运行,并在多项任务中实现接近更大模型的表现,非常适合本地化部署与移动端 AI 应用落地。DeePMD-kit_Example 是 DeePMD-kit 提供的官方示例集,涵盖多种体系的训练样例、模型配置与分子动力学任务设置。* LongCat-Video:美团开源的AI视频生成模型。
2025-11-20 20:01:56
896
原创 教程上新丨目标检测迈入「全局感知」时代:清华大学等发布 YOLOv13,实现速度、精度双突破
过去十年里,YOLO 系列凭借轻量高效的架构成为该领域的主流方案,从最初的 YOLO 到近年的 YOLOv11、YOLOv12,模型不断在速度与精度之间寻找新的平衡点。*感受野:视觉通路中,视网膜上的光感受器(杆体细胞和锥体细胞)接受光信号,转换为神经信号,影响外膝状体细胞和视觉皮层中的神经节细胞,这些神经节细胞的受刺激区域就叫做感受野(receptive field),不同的感觉种类有不同的感受野性质和大小。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。
2025-11-20 19:40:18
730
原创 跨语言智能再升级!Multi-LMentry 打造多语理解新基准;Nemotron-Personas-USA重塑虚拟人画像生成
Diabetes Health Indicators 数据集是一个用于糖尿病风险预测与公共卫生研究的综合基准,包含 31 个特征字段,覆盖人口属性、生活方式、病史与临床指标。Life Style Data 数据集是一个综合性的健康与生活方式分析基准,整合了个体在饮食、运动、生理指标和身体组成等多维度的数据,并以结构化 CSV 格式公开。Multi-LMentry 数据集是一个用于评估大型语言模型(LLMs)在多语言环境下基础语言理解与推理任务中的综合基准,涵盖英语、德语、西班牙语、韩语等九种语言。
2025-11-13 17:00:42
423
原创 教程上新丨Deepseek-OCR 以极少视觉 token 数在端到端模型中实现 SOTA
这不再是简单的图像处理,3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。众所周知,大语言模型在处理千字、万字或是更长文本时,计算量往往急剧增加,甚至直接导致算力的「烧钱」游戏,也因此制约了 LLM 在处理高密度文本信息场景中的效率边界。DeepSeek-OCR 的发布,不仅仅是 OCR 任务的进步,更在长上下文压缩和探索 LLMs 中的记忆遗忘机制等前沿研究领域展示了巨大的潜力。
2025-11-13 16:46:13
557
原创 OCR 新范式!DeepSeek 以「视觉压缩」替代传统字符识别;Bald Classification数据集助力高精度人像分类
FDAbench-Full 数据集是一个用于评估数据代理(Data Agents)在异构数据分析任务中的表现的综合基准,包含 2,007 个高质量分析任务,覆盖不同数据领域、难度等级与任务类型,用于系统考察模型在数据库查询生成、SQL 理解以及金融数据分析中的能力。AutoDock-GPU_Output 数据集是一组由 AutoDock-GPU 生成的标准对接输出文件(.dlg),包含结合能、构象聚类与最终配体姿态等解析信息,可用于展示分子对接的完整结果格式并验证对接环境配置是否正常。
2025-11-06 18:31:31
493
原创 教程上新丨端侧TTS新SOTA!NeuTTS-Air基于0.5B模型实现3秒音频克隆
进入 Demo 运行页面后,在「Reference Audio」上传参考音频,在「Reference Text」文本框中输入参考文本,将克隆后希望得到的音频文本内容输入「Text to Generate」,点击「Submit」后稍等片刻即可得到克隆音频。NeuTTS-Air 的发布,正值行业对高效、低延迟、高逼真度 TTS 需求激增之际,尤其是在端侧部署(On-Device)和即时语音克隆领域,它降低了开发者在移动和边缘设备上部署高质量 TTS 的门槛,让「超现实」的声音不再是云端大模型的专属。
2025-11-06 18:19:28
361
原创 Wan2.2-Animate-14B支持动作模仿和角色扮演,实现电影级角色动画生成;NWChem_Benchmark数据集上线
本数据集基于 NWChem 高性能计算化学软件生成,涵盖生物分子、纳米结构与固态材料的量子及经典混合计算数据,包含基态与激发态性质,采用高斯基函数与平面波两种计算方法,具备从单节点到数千处理器的高并行扩展能力,并支持分子性质与相对论效应的分析。Wan2.2-Animate-14B 同时支持动作模仿和角色扮演两种模式,能基于表演者的视频,精确复制面部表情和动作,生成高度逼真的角色动画视频。此外,MiMo-Audio-7B-Base 具备强大的语音续写能力,可生成高度逼真的脱口秀、朗诵、直播和辩论内容。
2025-10-30 19:34:48
529
原创 教程上新丨多模态协同的视频生成框架HuMo-1.7B,实现图文声一体的视频创作体验
3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。进入 Demo 运行页面后,在文本框内输入相关文字描述,并上传图片以及音频,根据需求调整相关参数,点击「Generate Video」即可生成视频。然而,当前多数模型大多依赖单一模态输入。HuMo 提出「协同多模态条件生成」的理念,将文本、参考图像与音频三种输入纳入同一生成模型中,并通过渐进式训练策略与时间自适应引导机制,通过在去噪步骤中动态调整引导权重,
2025-10-30 19:23:51
321
原创 MinerU系列最新迭代版本上线,专为高精度、高效率的文档解析任务设计;清华、字节联合推出HuMo,实现三模态协同生成人物视频
Smilei 是一个开源、易于使用的电磁粒子 - 网格(Particle-In-Cell, PIC)代码,旨在为激光 – 等离子体相互作用、粒子加速、强场 QED 和空间物理等领域提供一个高精度、高性能、可扩展的等离子体动力学模拟平台。支持从文本-图像(VideoGen from Text-Image)、文本-音频(VideoGen from Text-Audio)以及文本-图像-音频生成视频(VideoGen from Text-Image-Audio),为用户提供了更高的定制化和控制能力。
2025-10-24 20:12:22
837
原创 教程上新丨MIT等推出BindCraft,直接调用AF2,实现蛋白质结合体的智能化设计
3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。当状态变为「运行中」后,点击「打开工作空间」旁边的跳转箭头,即可跳转至 Demo 页面。那么,既然 AlphaFold 已经能理解蛋白结构,那能否让它自己反向「思考」,直接生成一个与目标完美契合的新蛋白?然而,传统的蛋白质结合物生成方法,例如免疫接种、抗体库筛选或定向进化,通常费力费时,并且对靶位的控制有限。但这仍非真正意义上的「智能设计」。
2025-10-24 19:51:27
610
原创 教程上新|重新定义下一代 OCR:IBM 最新开源 Granite-docling-258M,实现端到端的「结构+内容」统一理解
3. 选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。近期,IBM 开源轻量级多模态文档处理模型 Granite-Docling-258M,专为高效文档转换设计,能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素,实现端到端的全文文档转换。1. 登录 OpenBayes.com,在「公共教程」页面,选择「Granite-docling-258M:轻量多模态文档处理模型」教程。
2025-10-14 15:52:09
449
原创 内含免费算力福利|集群升级!RTX 5090 & RTX PRO 6000 重磅上线
本次活动将于 2025 年 10 月 17 日 23:59 (UTC+8) 停止兑换,兑换码数量有限,先到先得!即日起,「新用户注册赠送机制」&「邀请赠送机制」的免费赠送资源均由 RTX 4090 升级为 RTX 5090。9 月以来,开学季与顶会截稿高峰叠加,大家的计算任务排起了长龙,等得心急如焚?* 工作空间:100 GB。* 显存:32 GB。* 显存:96 GB。
2025-10-14 15:27:51
683
原创 IndexTTS-2突破传统TTS模型情感表达和时长控制局限;LoongBench数据集含8K条样本,助力跨领域推理评测
ERNIE-4.5-21B-A3B-Thinking 是在 ERNIE-4.5-21B-A3B 基础上训练的深度思考模型,支持 128K 的上下文窗口,适用于需要长上下文的复杂推理任务。该模型突破了传统翻译模型在小语种适配、文化语境还原、长文本连贯性上的局限,支持中文、英语、德语、法语、西班牙语、日语、韩语等 28 种主流语言互译,在日常对话、专业文档(如技术手册、学术摘要)、多文化场景(如跨境营销文案)中均能保持优异的翻译质量。SEED-X-PPO-7B:强化学习优化的多语言翻译模型。
2025-09-28 11:36:49
967
原创 教程上新丨41个案例中的生成成功率达100%,RFdiffusion2 基于化学反应实现原子级别蛋白质生成
3.选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。RFdiffusion2 采用了一种新的深度生成方法,能够基于与序列无关的功能团位置描述进行蛋白质设计,而无需进行反向旋转异构体生成。此前,生成式蛋白质设计模型 RFdiffusion 主要通过对理想活性位点的描述,实现精确固定位点的蛋白质结构生成。当状态变为「运行中」后,点击「打开工作空间」旁边的跳转箭头,即可跳转至 Demo 页面。
2025-09-25 19:40:17
526
原创 教程上新丨ACL机器翻译大赛30个语种摘冠,腾讯Hunyuan-MT-7B支持33种语言翻译
3.选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。另外值得一提的是,Hunyuan-MT-7B 在国际计算语言协会(ACL)WMT2025 比赛中,拿下了 31 种语言比赛中 30 项的冠军,表现可谓令人赞叹。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。,在「公共教程」页面,选择「Hunyuan-MT-7B:翻译模型 Demo」教程。点击下方链接即可一键部署。
2025-09-18 17:00:08
553
原创 MiniCPM-V 4.5超强端侧多模态模型上线,性能速度兼具,端侧运行无压力;MedChatZH含超1K中医典籍,助力中医问诊
MedChatZH 数据来源于超过 1k 本中医典籍与医家笔记,以及从互联网与多家中国医院汇集的超过 700 万条中文医疗指令并结合 BELLE-3.5M 通用指令,经过筛选清理得到医药类指令 763,629 条、通用指令 1,305,194 条,共同组成用于对话微调的 med-mix-2M 数据集,与中医典籍语料配合,分别服务于继续预训练与指令微调两个阶段。MiniCPM-V 4.5 端侧部署友好,显存占用低,推理速度快,适合在车机、机器人等设备上应用,为端侧 AI 发展树立新标杆。
2025-09-11 17:14:47
926
原创 教程上新 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音,重新定义TTS技术边界
微软最新开源的 VibeVoice-1.5B 模型,在 TTS 技术领域掀起了轩然大波,这款拥有 15 亿参数的模型,能够一次性生成长达 90 分钟的高自然度语音,并支持模拟最多 4 位不同说话者的对话,其官方盲测 MOS(平均意见分数)高达 4.5,接近真人语音质量。进入模型页面后,在「Number of Speakers」中选择说话人数,「Speaker 1-4」设置说话人,「Conversation Script」中输入对话文本,最后点击「Generate Podcast」生成。
2025-09-11 16:54:18
692
原创 MiniCPM-V 4.5超强端侧多模态模型上线,性能速度兼具,端侧运行无压力;MedChatZH含超1K中医典籍,助力中医问诊
MedChatZH 数据来源于超过 1k 本中医典籍与医家笔记,以及从互联网与多家中国医院汇集的超过 700 万条中文医疗指令并结合 BELLE-3.5M 通用指令,经过筛选清理得到医药类指令 763,629 条、通用指令 1,305,194 条,共同组成用于对话微调的 med-mix-2M 数据集,与中医典籍语料配合,分别服务于继续预训练与指令微调两个阶段。MiniCPM-V 4.5 端侧部署友好,显存占用低,推理速度快,适合在车机、机器人等设备上应用,为端侧 AI 发展树立新标杆。
2025-09-04 17:01:32
688
原创 开学季狂欢特惠 | 最高可获 20% 超值返现!
充值返现金额不累计,单笔充值仅可享受一档优惠,且参与次数不设上限,多充多返;* 个人账户及组织账户均可参与充值返现活动,返现金额会直接充值到账户中;* 活动充值金额不支持退款,开票金额以实际充值金额为准,不含返现金额;* 单笔充值满 ¥1000(含)-4999(含),返现 18%* 单笔充值满 ¥100(含)-¥499(含),返现 10%* 单笔充值满 ¥500(含)-¥999(含),返现 15%* 单笔充值满 ¥50(含)-¥99(含),返现 5%* 单笔充值满 ¥5000(含),返现 20%
2025-09-04 16:44:23
314
原创 OpenBayes 一周速览丨公共模型一键部署功能上线!VibeVoice1.5B重新定义TTS技术边界,多人长对话一键生成
NVIDIA-Nemotron-Nano-9B-v2 作为 Nemotron 系列的混合架构优化版本,该模型创新性融合 Mamba 高效长序列处理与 Transformer 强语义建模能力,仅以 90 亿(9B)参数就实现了 128K 超长上下文支持,在边缘计算设备(如 RTX 4090 级 GPU)上的推理效率与任务性能,可对标同参数规模的前沿模型,标志着大语言模型在轻量化部署与长文本理解领域的重大突破。Qwen3-Thinking-2507 是 Qwen3 思维模型的延续,具有更高的推理质量和深度。
2025-08-29 14:54:17
974
原创 OpenBayes 教程上新丨英伟达力推小模型,小而精的Nemotron-Nano-9B-v2比Qwen3快6倍
NVIDIA 团队于 2025 年 8 月 19 日推出轻量级大语言模型 NVIDIA-Nemotron-Nano-9B-v2。作为 Nemotron 系列的混合架构优化版本,该模型创新性融合 Mamba 高效长序列处理与 Transformer 强语义建模能力,用 Mamba-2 状态空间层替换掉大部分自注意力层,让模型在处理长推理轨迹时速度更快。
2025-08-29 14:16:30
890
原创 OpenBayes 一周速览丨Qwen家族新秀,Qwen-Image-Edit 实现图片文字精准编辑;Nemotron 数据集含超 2K 万条样本,涵盖多领域
在非推理领域,Qwen3-4B-Instruct-2507 在知识、推理、编程、对齐以及 agengt 能力上全面超越了闭源的小尺寸模型 GPT-4.1-nano,且与中等规模的 Qwen3-30B-A3B(non-thinking)性能接近。CSEMOTIONS 数据集包含约 10 小时的高质量音频数据,涵盖 10 位专业配音演员(5 位男性、5 位女性)在中性、快乐、愤怒、悲伤、惊讶、厌恶、恐惧七种情绪类别下的音频,每种情绪均包含 500-700 句中文文本的录音。
2025-08-21 13:51:41
880
原创 OpenBayes 教程上新丨Qwen-Image 刷新图像编辑 SOTA,实现精准中文渲染
阿里通义千问团队开源首个图像生成基础模型 Qwen-Image,参数量达 20B,采用全新 MMDiT 架构,刷新了图像生成模型 SOTA。
2025-08-14 14:11:35
947
原创 OpenBayes 一周速览丨MiniCPM-V4.0图像理解能力突破,手机端也可轻松部署;含超20K样本,MathCaptcha10K助力训练验证码识别模型
MiniCPM-V4.0 在 OpenCompass 评测中图像理解能力超越了 GPT-4.1-mini-20250414、Qwen2.5-VL-3B-Instruct 和 InternVL2.5-8B。NonverbalTTS 数据集包含 17 小时的高质量语音数据,数据源自 2,296 名参与者(60% 男性,40% 女性),涵盖 10 种非语言语音类型(呼吸、笑声、叹息、打喷嚏、咳嗽、清嗓子、呻吟、咕哝、打鼾、吸气)、8 种情绪类别(愤怒、厌恶、恐惧、快乐、中性、悲伤、惊讶、其他)。
2025-08-14 13:52:28
724
原创 OpenBayes 一周速览丨李沐团队开源语音大模型Higgs Audio V2,扩展多语言对话等功能;MegaScience数据集上线,含125万实例
GPT-OSS-20b 参数约为 210 亿,运行时仅需 16GB 内存,在常见基准测试里,其表现与 o3-mini 相当,这种轻量化设计使得它在边缘设备上也能轻松部署,无论是在本地推理,还是在对基础设施要求严苛的快速迭代场景中,都能发挥出色的效能。Neta Lumina 基于上海人工智能实验室 Alpha-VLLM 团队开源的 Lumina-Image-2.0,利用海量、高质量的二次元风格图像及多语种标签数据,使模型具备强大的需求理解与诠释能力,非常适合插画、海报、分镜、角色设计等场景。
2025-08-11 11:48:11
703
原创 OpenBayes 教程上新丨一键部署 gpt-oss-20b,实测开源推理模型新 SOTA,性能直逼 o3‑mini
OpenAI 终于再度发布开源大模型——gpt-oss-120b 和 gpt-oss-20b,前者以千亿级参数专为复杂推理与知识密集型场景设计,后者则更适合低延迟、本地或专业垂直领域使用
2025-08-11 11:10:15
1050
原创 OpenBayes 教程上新丨仅激活 3B 参数可媲美 GPT-4o,Qwen3 深夜更新,一手实测来了!
聚焦官方给出的数据,这个非思考模式(non-thinking mode)的新模型,将长文本理解能力提升至 256K,仅激活 3B 参数,就能取得可媲美 Gemini 2.5-Flash(non-thinking)、GPT-4o 等顶尖闭源模型的超强性能。1.最近极端天气频发,北京接连暴雨后,上海又迎来了台风,让我们来问问 Qwen3-30B-A3B-Instruct-2507 上海台风和北京暴雨的是否有关系,看看它怎么回答。2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
2025-07-30 16:36:43
1226
原创 OpenBayes 一周速览丨Self Forcing 实现亚秒级延迟实时流视频生成;边缘AI新秀,LFM2-1.2B采用创新性架构超越传统模型
ArtVIP 数据集包含 26 个类别的 206 个铰接物体,涵盖家居用品、大型家具、大家电、小家电和小家具,还提供了 6 个数字孪生环境和 6 个完全交互环境,包括儿童房、饭厅、厨房、带客厅的厨房、大客厅和小客厅。Updesh 数据集包含 6,800,000 条推理数据及 2,100,000 条生成数据,其涉及的语言有阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥迪亚语、旁遮普语、泰米尔语、泰卢固语、乌尔都语。4. LFM2-1.2B:高效边缘部署的文本生成模型。
2025-07-30 16:18:51
1159
原创 OpenBayes 一周速览丨DiffuCode-7B-cpGRPO迭代式降噪方式可不按顺序生成代码;NextCoder数据集上线,超万条指令、对话样本
DiffuCoder-7B-cpGRPO 旨在通过迭代式降噪的方式进行代码的生成与编辑,而非传统的从左到右的自回归(Autoregressive)生成。该模型在继承 GLM 系列通用大模型能力的基础上,进一步强化了视觉理解和复杂推理能力,达到 10B 参数级别的视觉语言模型的最强性能,在 18 个榜单任务中持平甚至超过 8 倍参数量的 Qwen-2.5-VL-72B。Leukemia 数据集包含了约 6,778 张细胞的图像,其中正常细胞(3,389 张)和白血病细胞(3,389 张)。
2025-07-24 14:46:47
851
原创 OpenBayes 教程上新丨Mistral AI首个开源音频模型Voxtral,24B与3B版本兼顾多场景语音深度理解
Mistral AI 近期正式发布了首个先进音频模型 Voxtral,以开源高性能与低成本精准聚焦语音智能市场痛点。该模型提供 24B 和 3B 两种版本,前者适用于企业级规模化部署,后者则降低了个人轻量部署的准入门槛。
2025-07-24 14:17:08
566
原创 OpenBayes 一周速览丨字节EX-4D上线,实现单目视频到自由视角生成;GLM-4.1V-9B-Thinking开源,10B参数比肩Qwen系列
GLM-4.1V-9B-Thinking 专为复杂认知任务设计,支持图像、视频、文档等多模态输入。该模型在继承 GLM 系列通用大模型能力的基础上,进一步强化了视觉理解和复杂推理能力,达到 10B 参数级别的视觉语言模型的最强性能,在 18 个榜单任务中持平甚至超过 8 倍参数量的 Qwen-2.5-VL-72B。EX-4D 能从单目视频输入生成极端视角下的高质量 4D 视频。EX-4D 在极端视角下的性能显著优于现有方法,为 4D 视频生成提供新的解决方案。* EX-4D:实现单目视频到自由视角生成。
2025-07-17 14:52:06
421
原创 OpenBayes 教程上新丨一句话精准P图,FLUX.1 Kontext可实现图像编辑/风格迁移/文本编辑/角色一致性编辑
FLUX.1 Kontext 能够在无需复杂描述的情况下实现多种编辑任务,包括对象修改、风格转换、背景替换、角色一致性编辑和文本编辑等。
2025-07-17 14:23:34
452
原创 OpenBayes 一周速览丨3B参数多模态统一模型Ovis-U1-3B开源,实现单一框架完成多模态任务;Magenta RT实时音乐生成,可动态调整乐曲风格
Ovis-U1-3B 模型集成多模态理解、文本到图像生成和图像编辑三种核心能力,基于先进的架构和协同统一训练方式,实现高保真图像合成和高效的文本视觉交互。Kimi-Dev-72B 在 SWE-bench Verified 编程基准测试中达到 60.4% 的性能,凭借其仅 72 亿的参数量,一举夺魁,超越了近期发布、参数量高达 671 亿的新版 DeepSeek-R1,成为当前开源模型中的 SOTA。* Gemma-3n-E4B-it:先进的轻量级开放模型。* Ovis-U1-3B:多模态理解与生成模型。
2025-07-10 18:45:34
646
原创 OpenBayes 教程上新丨超分辨率框架Chain-of-Zoom引入VLM生成的多尺度感知文本提示,256倍放大并保持图像高保真度
KAIST AI 研究团队提出了创新的 Chain-of-Zoom(CoZ)框架,通过将超分辨率任务分解为一个自回归的中间尺度状态链,并结合多尺度感知提示,来实现极高倍率的放大。
2025-07-10 18:30:34
926
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅