
OpenAI又引燃AI社区!今天,其博客宣布,推出了两个结合计算机视觉和NLP结合的多模态模型:DALL-E和CLIP,它们可以通过文本,直接生成对应图像,堪称图像版「GPT-3」。
2021年新年伊始,OpenAI与1月5日宣布成功地训练了一个能从文字描述生成图像的神经网络。为向Wall-E致敬,OpenAI将这个神经网络命名为DALL-E,我们姑且叫他多莉。
多莉是一个基于GPT-3的神经网络。 它有120亿个参数,仅是GPT-3模型参数的十五分之一。多莉被训练成专门用于根据文字提示生成图片。
Dall-e:我会画画啦
视频:pypyai/com 出品
多莉使用一个专门的文字描述与图片对应的数据集,相对而言,GPT-3的数据集则要庞大得多。多莉还具有相当丰富的地理知识,他能回答诸如关于国旗、具有鲜明地理特征的野生动物、地方特色食品、地标性建筑等很多问题。令人惊奇的是多莉还显示出对三维空间可透视的理解力, 比如通过指定多个连续的视角甚至还可以生成动画。
下图就是它为同一只(不存在的)猫画多幅草图:

目前OpenAI并未披露多莉工作方式的细节,以及多莉是如何训练的。他们会继续发表论文解释多莉的工作原理。让我们拭目以待。但,这是美术设计师即将失业的节奏吗?
原文链接:https://openai.com/blog/dall-e/
OpenAI推出多模态模型DALL-E,能根据文字描述生成图像,类似图像版GPT-3。该模型基于120亿参数,能绘制各种场景,包括地理知识和三维理解。尽管未透露详细信息,但OpenAI计划后续发布论文解析其工作原理。这是否预示着美术设计师的角色将发生改变?
780

被折叠的 条评论
为什么被折叠?



