作为一名冲浪在 AI 技术前沿的技术宅,最近有一个消息真是让我兴奋到拍大腿!那就是——OpenAI 在上个月,给 ChatGPT 和 Sora,偷偷摸摸地升级了一个超级牛掰的图片生成和编辑功能! 它的名字,咱们技术圈里现在更爱直接叫它4o image generation,以下简称4o!

这可不是 DALL-E 3 简单的迭代,朋友们!这感觉就像是 DALL-E 3 打了激素,吃了炸药包,整体能力直接飞升了!
你想想看,以前用 AI 生成图,想加点中文文字进去?难!想让它按照你的意思微调图片某个地方?费劲!想让它理解你上传的图片,然后基于这个风格再搞点新花样?更难!
但 4o 出来后,这些痛点,它统统给你解决了!
- 画质?大幅提升,直接奔着市面上的顶尖模型去了!
- 最牛逼的来了:它能在生成的图片里显示中文文字了!虽然长的句子偶尔会翻车,但短的、关键的文字基本没问题!这意味着什么?用 AI 生成中文漫画,变得前所未有的简单!
- 编辑能力?这是另一个王炸!你可以直接跟 AI 聊天对话,让它帮你修改生成的图,或者更吊的是,上传一张你自己的图,让 AI 按照你的指令进行各种编辑!变风格、换方向、局部修改、增加物体、抠图... 简直就是你的专属 AI 修图师!
是不是光听听就觉得炸裂了?!
那话不多说,今天我就带大家深入浅出地了解一下这个 4o 到底是个啥,怎么用,以及我给大家总结的 10个超实用的活用案例!保证你看完就想立马打开 ChatGPT 动手试试!
第一章:4o 是个啥?怎么上手玩儿?
咱们先搞清楚这个新功能的基础信息。
1. 4o 有啥特点?
这功能呢,是直接集成在 OpenAI 的 GPT-4 模型里的。所以它的牛,一部分是继承了 GPT-4 强大的理解和对话能力。
- 一致性更好: OpenAI 说他们用海量的图片和文字关系数据训练了它,所以它更能理解你的描述,生成跟你的想法一致的图片。
- 文字显示能力! 这真是个大突破!它能很好地在图里显示英文文字,中文文字虽然长了容易乱码,但短的字词成功率很高,这在以前几乎是不可能做到的!
- 听话的编辑助手: 因为在 GPT-4 里,你可以通过自然的对话来编辑图片,它理解复杂指令的能力超强,甚至能在图里准确地放入10到20个不同的物体(官方说的,我后面实测了,真的可以!)
- 理解并编辑上传的图片: 这个功能太实用了!你可以上传一张图,让 AI 参考这张图的风格生成新图,或者直接让 AI 分析你的图,然后根据你的文字指令去修改它!比如把图变成别的风格,或者改变里面物体的朝向。
当然,OpenAI 也自己公布了一些目前的限制,比如生成竖图(像海报那种)的时候,下面可能会被截掉一部分;或者生成物体数量特别多的时候,可能偶尔会有偏差。但这都不影响它的强大!
另外提一句,用 4o 生成的所有图片,都会内嵌不可见的数字水印,而且有防生成不当内容的安全机制,用起来更放心哈。
2. 怎么才能用到 4o?
这个大家比较关心。截至3月26日发布的时候:
- 它是作为 ChatGPT Plus、Pro 和 Team 用户默认的图片生成工具 推送的。也就是说,如果你是这些付费用户,你用的 DALL-E 3 已经被它悄悄替换掉了。
- 在 Sora 里也能用(Sora 目前也是给 ChatGPT 付费用户开放)。
- OpenAI 说未来几周内会开放 API 接口,方便开发者调用。
一个插曲: 原本 OpenAI 是打算向免费用户开放的,但发布第二天 Sam Altman 自己发推说,需求量太大了,免费用户要延后开放。所以现在,想尝鲜的小伙伴,暂时需要是 ChatGPT 的付费用户。
如果你是付费用户,但特别怀念 DALL-E 3 的某个特点,别担心,OpenAI 也保留了 DALL-E 3 的 GPTs,你还是可以通过搜索找到 DALL-E 3 的官方 GPTs 继续使用 DALL-E 3。
3. 4o 具体怎么操作?
其实操作起来非常简单,跟你以前用 DALL-E 3 差不多,甚至更直接:

-
在 ChatGPT 里 (付费用户):
- 首先,确保你选择的模型是 GPT-4。
- 在聊天输入框里,直接输入你想要生成的图片描述(提示词)。
- 或者,更厉害的是,你可以点击输入框左边的 “+” 按钮,选择上传图片!上传后,你就可以在输入框里对这张图提出编辑要求了!
- 如果你想手动切换到图片模式(一般 GPT-4 已经自动识别了),可以点击输入框下面的三个点,选择“创建图片”。
-
在 Sora 里 (付费用户):
- 打开 Sora 界面。
- 在下方的输入框里,左下角有个标签页,选择 “Image”。
- 然后在输入框里输入文本描述生成图片,或者上传图片进行编辑。
生成或编辑的速度都挺快的!至于能生成/编辑多少张图片,OpenAI 目前还没有明确公布具体的限制,不过付费用户通常有比较充足的使用量。
第二章:炸裂实测!4o 的10大活用案例!
光说不练假把式!下面我结合官方信息和我的实际体验,给大家展示10个用 4o 可以玩出来的花活儿!
案例1:生成超高质量图片
这个是基础能力,但提升巨大! 4o 生成的人物、动物、风景、动漫、艺术风格图片,质量已经完全可以和 Midjourney V6.1、Leonardo AI、Clipdrop 等目前顶级的图片生成模型媲美了!比 DALL-E 3 真是好了不止一个档次。细节更丰富,光影更自然。
案例2:生成带文字的漫画!

这是 4o 刚出来时最火爆的应用!你可以直接给 GPT-4 指令,比如:“用中文写一个可爱的猫咪介绍 ChatGPT 的四格彩色漫画”。它真的能给你生成出来!虽然漫画的绘画风格和分镜比较简单,但最关键的是,它把中文文字成功地放进图片里了! 虽然遇到长句子会变成乱码,但短的对白、标题基本都能显示正确。这对于想快速生成带中文内容的图片来说,简直是神器!
案例3:在图片里显示长文本

不仅仅是中文漫画的短文本,我在测试英文的时候发现, 4o 可以在图片里显示相当长的英文段落,而且文字清晰、排版正确!虽然中文长文本还是容易乱码,但偶尔运气好,几行中文也能成功显示出来!这为未来的图片内容创作提供了新的可能。
案例4:多个图片合成

这个功能超赞!你可以上传几张不同的图片,然后告诉 AI 把它们合成为一张图,并且按照你的指令来组合。比如,上传一张女生的图,一张椅子的图,一张猫的图,然后说:“把图1的女生放到图2的椅子上坐着,让她抱着图3的猫咪”。 4o 就能在保持风格和一致性的前提下,把这些元素巧妙地合成到一张图里!合成效果非常自然,几乎没有违和感。
案例5:在图片内生成大量物体

官方宣称能放入10到20个不同物体,这听起来有点玄乎。我实测了一下,给了一个包含16种不同物体的中文描述,让它生成一张图。结果它真的按照我的要求,把这16种物体准确地呈现在一张图片里了! 而且位置、关系基本都符合描述。这在以前的 AI 模型里也是很难做到的。
案例6:图片风格转换

上传一张图片,比如一张写实的考拉照片,然后告诉 AI:“把这张考拉图转换成日本动漫风格”。 4o 就能在保持考拉姿势和主体特征不变的情况下,把它变成动漫风!你也可以尝试各种其他风格,比如水彩、油画、像素风等等。
案例7:改变图片内物体的方向


上传一张正面朝向的人物照片,然后指令:“让图片里的人物转过身去,变成背影”。 4o 就能在不改变人物发色、服装等特征的前提下,生成一张她背对镜头的照片!同样,你也可以让她看向左边或右边。这个功能对于生成同一个人物不同角度的图片非常有用。
案例8:图片局部修改(Inpainting)

这个功能在 DALL-E 3 里也有,但在 4o 里感觉效果更好了。生成一张图片后,点击图片进入放大界面,右上角有个**“画笔”按钮**。点击它,你就可以用画笔选中图片里你想修改的某个区域(比如图里的一只猫)。选中后,在下方输入框里输入指令,比如“把这只狸花猫变成一只白色的猫”。发送指令,AI 就会只修改你选中的区域,把狸花猫变成了白猫,而且融合得很自然!
案例9:在图片局部增加物体

同样利用上面的局部修改功能。选中图片里的某个区域(比如草地),然后指令:“在这个区域里增加一只黑色的猫”。 4o 就能在你指定的区域里,无缝地添加一个黑猫进去!无论是增加人物、动物还是其他物体,效果都非常不错。
案例10:去除图片背景(抠图)
上传一张带背景的人物照片,然后指令:“把这张图片的背景去除掉”。 4o 就能干净利落地帮你把人物主体抠出来,生成一张背景透明或纯色的图片!这个功能对于制作证件照背景、电商产品图或者素材合成非常方便。这就不截图了,这个功能对我们来说,不太值得一题,哈哈哈哈。
总结与展望
总的来说,OpenAI 的 4o 是一个非常重要的更新!虽然大家可能更多关注它的图片编辑能力,因为这确实带来了很多新的玩法和便利,但它的图片生成质量相比 DALL-E 3 也有了质的飞跃,已经迈入了第一梯队。
特别是支持中文文字显示和强大的图内编辑能力,极大地拓展了 AI 图片的应用场景,让普通用户也能通过简单的对话,创作出令人惊艳的图片和进行复杂的编辑。
考虑到 OpenAI 的迭代速度,以及 Sora 本身在视频生成上的惊艳表现,我们完全有理由期待 4o 未来会更加强大,甚至在 Sora 的下一个版本中,图片和视频的生成编辑能力会进一步融合!
各位,AI 工具真的是越玩越有意思! 4o 无论是生成图片,还是像变魔术一样修改图片,都提供了前所未有的便利,搞得我现在天天因为测试ai而头疼。
如果你是 ChatGPT 付费用户,赶快去试试吧! 上面提到的这些案例,你都可以自己动手玩一遍!相信你会像我一样,被它的能力所折服!
好啦,今天的分享就到这里!希望这篇文章能让你对 4o 有个全面的了解,并且激发你去探索更多有趣的玩法!
1736

被折叠的 条评论
为什么被折叠?



