GPT-4o 的原生图像生成功能上线了。不是“调用 DALL·E”,而是由 GPT-4o 自身完成图像的生成。这一点听上去是技术路线的微调,实际对用户体验的影响是非常直观的。
过去我们总说“多模态”,但往往是在模型之间拼接。现在,GPT-4o 更像是将能力内化,直接在对话中就把文字、图像、上下文整合为一个连续的理解过程。这不是它“能画图”,而是它“懂你说的内容之后,顺手画了图”。
从“能生成图”到“能读懂场景”
我们来看几个例子,感受最深的不是画得有多炫,而是“没说清楚的部分,它也大致能补全”。
有网友用它来进行室内装修设计。看看这个内置书架——一次性渲染完成