今天的任务是对baseline的代码有一个更加细致的理解,在如今的AI时代学习如何借助AI来提升我们的自学能力。
探探前沿:了解AI生图技术的能力&局限
AIGC是通过人工智能技术将关键词自动生成出对应的图片的生产方式,AI生图的快速发展,可能关于颠覆诸多传统的领域,如摄影、绘画等。
最早的AI生图可追溯到20世纪70年代,当时艺术家哈罗德·科恩(Harold Cohen)发明了AARON,可以通过机械臂传输作画。
现代的AI生图最早可追溯到2012年吴恩达基于深度学习神经网络基础上训练的能生成猫脸的模型。
2015年,谷歌推出了“深梦”图像生成工具,可以基于给定图片生成梦幻版图片。
2021年OpenAI推出ADLL-E模型,可以直接从文本提示生成风格多样的图形设计。
2022年8月,AI生图正式走进大众的视野,当时的AI绘画作评《太空歌剧院》在美国科罗拉多州举办的新兴数字艺术家竞赛中获得了比赛“数字艺术/数字修饰照片”类别一等奖。
通俗来说,AI生图模型是通过学习图片描述和图片特征来获得图片的生成能力。在我们需要的时候通过输入文字,复现出对应特征的图片,从而生成了我们需要的图片。在大部分生图场景下,我们会经常觉得图片有“AI味”,这也是困扰很多开发者的一大问题。但是目前大部分模型已经具备了去除“AI味”的能力,且可能存在容易误导他人的情况,这时候我们想辨别就需要细致地观察图片的细节,检查光线和阴影,分析像素和注意背景。
要了解AI生图的前言,我们可以从魔塔社区的各类AIGC工具开始探索、尝试、思考总结、实践,甚至开发出属于我们自己的工具。过去文生图主要以 SD 系列基础模型为主,仅支持英文的prompt,但可图是支持中文的文生图模型,文生图的prompt格式较为固定,魔塔社区还开源了专门的各种风格的可图优质咒语书,可以针对600+种不同风格,完善prompt,生成各种风格图片,可以在我们的学习当中使用。
Part1:认识通义千问
通义千问作为阿里云旗下的一款大模型,能为我们自学提供许多额外的帮助。
Part2:精读baseline——从零入门AI生图
在Task1中,我们已经顺利通过了教程并获得了baseline文件。尽管如此,有些同学可能对代码中的某些模块或行感到困惑,不清楚它们的具体作用。接下来,我们将利用通义千问的帮助来深入解析这份代码。
首先将所有代码都提出来,并复制到通义千问中,令其添加注释便于我们学习,结果如下:
# 安装 Data-Juicer 和 DiffSynth-Studio
!pip install simple-aesthetics-predictor # 安装simple-aesthetics-predictor
!pip install -v -e data-juicer # 安装data-juicer
!pip uninstall pytorch-lightning -y # 卸载pytorch-lightning
!pip install peft lightning pandas torchvision # 安装 peft lightning pan