DeepSeek与OpenAI同台开战：GPT-4o多模态生图正式上线，用嘴就能改图，免费体验！

原创于 2025-03-26 17:59:13 发布 · 602 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算家云 #OpenAI #GPT-4o多模态生图正式上线 #GPT-4o #DeepSeek #DeepSeek升级

话题文章专栏收录该内容

137 篇文章

订阅专栏

昨晚，当大家还在 GitHub 上讨论 DeepSeek 刚开源的 V3-0324 模型时，OpenAI 毫无预兆地甩出了 GPT-4o 多模态生图功能，甚至免费开放。短短 24 小时，AI 行业便呈现出激烈的暗战缩影。

就在两天前，DeepSeek 刚用一场低调升级震动了技术圈：V3-0324 版本以 6850 亿参数的 MoE 架构，把单次代码生成量怼到 958 行，连 Claude 用户都跑来围观“前端代码秒出完整网页”的现场演示。

但OpenAI的“反击”来得比所有人预想得更快。24 小时后，GPT-4o 突然解锁原生图像生成，将最新图像生成模型正式内置于 GPT-4o 中，并且和谷歌的 Gemini 一样能“用嘴改图”，效果比 Gemini 还要好，所以有网友认为这波更新也是被谷歌“逼急了”。

新功能的亮点包括:

能够精确渲染文本内容，提供高质量的图像效果；
支持多种输入输出方式，涵盖文本、图像和音频等多种形式；
理解复杂指令并结合上下文，创造出具有真实感的第一人称视角图像；

目前可以在 ChatGPT 上体验 4o Image Generation 功能。

先来看看官网给出的出图案例：

提示词：一张用手机拍摄的宽幅图像，显示一个玻璃白板，位于俯海湾大桥的房间里。视野中可以看到一位穿着印有大型 OpenAl 标志的T恤的女性正在书写。字迹看起来自然且有些凌乱，我们可以看到摄影师的倒影。

更令人瞩目的是，GPT-4o 支持多轮对话修改功能。用户可以通过连续的对话逐步调整图像内容。

例如：摄影师的自拍视角，她转身与他击掌。

同时，4o 将精确符号与图像融合的能力，将图像生成变为一种真正的视觉交流工具。

提示词：创建一张逼真的照片，内容是两名 20 多岁的女巫（一名是灰白色挑染发型，另一名是长卷的红褐色头发）正在阅读一个街标。背景：纽约威廉斯堡一条普通的城市街道，一根电线杆上完全被许多详细的街标覆盖（例如，街道清扫时间、需要停车许可证、车辆分类、拖车规则），包括中间的几个荒谬的标志：Broom Parking for Witches Not Permitted in Zone C，Magic Carpet Loading and Unloading Only (15-Minute Limit) 等等。人物：一名女巫拿着一把扫帚，另一名女巫拿着一个卷起的魔法地毯。她们在前景中，身体微微背向相机，头部微微倾斜，仔细查看标志。从背景到前景的构图：街道 + 停放的汽车 + 建筑物 → 街标 → 女巫。人物必须是离拍摄相机最近的。

小编也来实测了一波：

提示词：水墨画风格的老虎，背景是泼墨山水，留白构图。

短短几秒的时间，就生成了一张效果不错的中国风图片。

可以看出 GPT-4o 的出图质量已经非常成熟。它的颠覆性在于其原生多模态基因：不同于传统AI绘画工具需要单独调用图像模型，GPT-4o 的神经网络能同时处理文本、图像、语音输入，实现真正的“全链路创作闭环”

对比 Midjourney 30 美元/月的订阅费，GPT-4o 每日 3 次免费额度也能满足个人创作者轻量需求。

AI绘画生态或将被重构

这场看似简单的功能升级，有可能会改变 AI 绘画格局，重构整个创作生态。当我们在讨论 GPT-4o多模态生图时，本质上在讨论创作本质的重新定义。

算—AI算

大家有什么看法呢？欢迎在评论区留言讨论哦~