易安说AI | GPT-4o的吉卜力魔法让所有人都成了动画大师

最新推荐文章于 2025-11-24 18:29:32 发布

原创最新推荐文章于 2025-11-24 18:29:32 发布 · 1.1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #计算机视觉 #算法 #语言模型 #chatgpt #llama

深度学习拓展阅读同时被 2 个专栏收录

989 篇文章

订阅专栏

大模型专栏

293 篇文章

订阅专栏

本文来源公众号“易安说AI”，仅用于学术分享，侵权删，干货满满。

原文链接：GPT-4o的吉卜力魔法让所有人都成了动画大师

自从OpenAI发布GPT-4o图像生成功能以来，社交媒体上充斥着各种精美的AI生成图像。

从吉卜力风格的特朗普与泽连斯基"友好对话"到各种创意场景，GPT-4o的图像生成能力让全网设计工作者颤抖。

OpenAI一贯保持着对技术细节的神秘态度。在GPT-4o图像生成功能的官方文档中，仅简单提到："不同于基于扩散模型的DALL·E，4o图像生成是一个嵌入在ChatGPT中的自回归模型。"这寥寥数语引发了技术社区的广泛猜测。这几天，全网的内容创作者疯狂测评，压的OpenAI喘不过气来，直到周末，奥特曼发文称不要频繁生图了！

感兴趣可以点击文末阅读原文，体验官方六合一系统，GPT-4o生图

下面我将继续给大家测评几个场景

第一轮测试：基础图像生成

首先，我尝试了一个简单的提示词：

在昏暗的复古书房里，一盏台灯散发着柔和的暖光，照亮了一张古老的木质书桌。书桌上散落着几本泛黄的书籍和一支羽毛笔，旁边是一杯冒着热气的红茶。画面采用油画风格，营造出宁静而怀旧的氛围，仿佛时间在这里静止。

生成的图像确实具有相当的质感，台灯的暖光、老旧的书籍和羽毛笔都被很好地呈现出来。不过值得注意的是，只有GPT-4o模型才能使用这种增强的图像生成功能，普通的GPT版本仍在使用旧版的DALL·E模型。

为了测试GPT-4o对复杂未来景观的理解和表现能力，我尝试了这个充满科幻元素的提示词：

一座未来赛博朋克风格的大都市夜景，高耸的霓虹建筑直插云霄，全息广告投影在建筑表面闪烁。街道上悬浮车辆穿梭，蓝紫色调的灯光映照在湿润的街面上形成倒影。远处有一轮巨大的红月升起，天空中可见多层飞行轨道。画面富有未来感和科技感，采用电影级质感渲染。

它不仅捕捉到了赛博朋克风格的标志性霓虹色彩和未来城市的垂直层次感，还细致地表现了湿润街面上的光影反射，以及飞行器穿梭的动态感。红月的背景元素为整个场景增添了一丝神秘感，整体效果十分炫酷。

最后，我想尝试一个结合自然、魔幻与现代元素的场景：

魔法森林中的音乐节，巨大的古树上挂满了彩色灯笼和星光灯带。舞台由巨大的蘑菇和发光的水晶石构成，周围漂浮着会发光的精灵和魔法符文。森林生物和人类一起沉浸在音乐中，有的在树枝上跳舞，有的在空中飞翔。魔法粒子在空气中闪烁，形成音符和波浪的形状。整体色彩鲜艳丰富，充满活力和魔幻感。

GPT-4o这次的表现同样出色。画面中巨大的发光蘑菇舞台、树上的彩色灯光和漂浮的魔法元素构成了一个充满想象力的场景。特别是它成功地融合了自然元素和魔幻效果，同时保持了音乐节的现代感与欢乐氛围。空中的魔法粒子和灯光效果增强了画面的动感，整体效果既梦幻又充满活力。

第二轮测试：吉卜力风格生成

既然吉卜力风格最近大火，我也来尝试下。我用以下提示词进行测试：

以吉卜力动画风格绘制一只龙猫坐在巨大的向日葵田中，身边围绕着小煤球精灵，远处是一栋乡村小屋，天空中飘着几朵棉花糖般的云朵。光线是黄昏时分温暖的橙色。整体画面温馨梦幻。

结果令人惊喜，GPT-4o不仅准确捕捉了吉卜力动画的柔和线条和独特质感，还很好地表现了龙猫那标志性的圆润形象和煤球精灵的可爱特征。画面中的向日葵田和远处的乡村小屋都有着浓厚的宫崎骏风格，整体氛围确实达到了温馨梦幻的效果。

吉卜力动画中的小镇场景总是充满生活气息和细节，让我们来测试一下：

吉卜力风格的临海小镇，蜿蜒的石板路通向海边的灯塔。道路两旁是色彩各异的欧式建筑，有面包店、花店和钟表店，橱窗里陈列着精美的商品。小镇居民悠闲地散步或骑自行车，远处的海面上有几艘小渔船。天空中飘着几朵蓬松的白云，海鸥在空中盘旋。整体画面细节丰富，色彩明亮但不艳丽，充满温馨的日常生活气息。

结果令人惊喜，GPT-4o生成的海边小镇场景充满了吉卜力作品中常见的那种精致细节和生活气息。石板路的纹理、建筑的色彩和造型、橱窗的装饰都很用心。特别是那种略带怀旧的色调和柔和的光线处理，非常符合《红猪》和《魔女宅急便》等作品中的欧洲小镇风格。人物虽小但姿态生动，远处的灯塔和海面增添了画面的纵深感。

我尝试了一个充满吉卜力元素的森林树屋场景：

吉卜力风格的森林树屋村庄，巨大的古树上建有木质树屋，以木桥和藤蔓楼梯相连。树屋有圆窗和烟囱，冒着袅袅炊烟。树下有小溪流过，几个孩子在水边玩耍。森林里有小型魔法生物，如森林精灵和会走路的蘑菇。黄昏时分的柔和光线透过树叶洒落，整体画面温馨宁静，充满童话感。

生成的图像完美捕捉了宫崎骏动画中常见的那种与自然和谐共存的建筑风格。树屋的木质纹理、圆形的窗户和悬挂的植物都非常符合吉卜力的美学。特别是那种温暖的光线和略带朦胧的远景处理，让整个场景充满了梦幻般的质感。小溪和玩耍的孩子增添了生机，而小型魔法生物则为画面增添了典型的吉卜力奇幻元素。

吉卜力作品中常有将自然与机械元素结合的场景，如《天空之城》中的飞行机器和《哈尔的移动城堡》中的城堡：

吉卜力风格的自然与机械融合场景，一座由齿轮、管道和木板构成的巨大风车房屋，坐落在开满野花的草原上。风车有着生锈的金属部件和长满青苔的木板，但仍在缓缓转动。屋顶上有烟囱冒出彩色的烟雾，周围有几只机械鸟在飞翔。一位戴着草帽的老工匠正在修理风车的一部分。远处是连绵的山丘和一条闪光的河流。整体画面细节丰富，充满了复古未来感和宫崎骏式的想象力。

结果非常成功，GPT-4o准确捕捉了吉卜力作品中那种独特的"机械美学"——既有工业元素又充满有机感。风车的设计既复杂又和谐，金属与木质部件的结合、表面的锈迹和青苔都表现得很到位。彩色烟雾和机械鸟增添了奇幻元素，而远处的自然风景则平衡了画面，形成了典型的吉卜力式人与自然和谐共存的主题。老工匠的形象也很符合吉卜力作品中对手工艺人的刻画。

第三轮测试：图像编辑与合成

接下来，我想测试一下GPT-4o的图像编辑能力。我准备了两张不同的水杯照片，每张照片中都有人手拿着水杯。我的目标是让GPT-4o去除手部，只保留水杯并将它们放在同一画面中。提示词为：

请将两张水杯图片中的手部部分去除，仅保留水杯本身，确保水杯的细节清晰完整。背景保持简洁，以便用于电商海报设计。水杯的光影和质感需要保留，确保整体画面自然且具有吸引力。比例为4:3。

GPT-4o完成这项任务的速度和质量都不错，

它不仅成功地去除了手部，还调整了水杯的大小比例，使两个杯子在画面中看起来协调自然，背景也处理得干净利落。这种能力对产品摄影或电商设计人员来说无疑是个福音。

第四轮测试：概念可视化

我还想测试一下GPT-4o对抽象概念的理解和可视化能力。我选择了物理学中的"相对论时间膨胀效应"作为测试主题：

生成一张图，展示两个人：Alice在地球上，Bob在高速飞行的宇宙飞船里。因为相对论的时间膨胀效应，Bob看起来比Alice年轻。地球上Alice在慢慢变老，而飞船里的Bob几乎没变。背景简单，比例4:3。

GPT-4o生成的图像清晰地表达了这个复杂的物理概念：左侧的Alice随着地球时间流逝而变老，右侧的Bob因为高速飞行而经历较慢的时间流逝，保持年轻。虽然这种概念可视化不如专业科学插图那么精确，但对于快速传达科学概念来说已经相当实用。

技术猜想：GPT-4o如何生成图像？

尽管OpenAI对技术细节讳莫如深，但技术社区已经提出了几种猜想：

自回归+扩散模型：有研究者推测GPT-4o先生成视觉token，再由扩散模型将其解码到像素空间，采用类似Rolling Diffusion的分组扩散解码器，从上到下顺序进行解码。
纯自回归模型：还有人认为GPT-4o采用的是纯自回归方式，像生成文本一样从图像顶部开始生成图像token。这解释了为什么GPT-4o总是先生成图像上半部分的现象。

有趣的是，有研究者通过检查浏览器网络流量发现，用户看到的逐行生成图像的效果实际上只是前端动画，OpenAI服务器每次只向用户发送约5张中间图像。

总结

无论GPT-4o背后的具体技术是什么，它的确展示了AI图像生成的惊人进步。从吉卜力风格的创意插图到产品合成图，从概念可视化到精美海报，GPT-4o为创意工作者提供了一个强大的新工具。虽然它还不能完全替代专业设计师和摄影师，但对于快速创意概念验证、简单图像编辑以及日常视觉内容创作来说，GPT-4o已经足够强大且易于使用。

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。