Datawhale X 魔搭 AI夏令营task2笔记

        今天的任务是对baseline的代码有一个更加细致的理解,在如今的AI时代学习如何借助AI来提升我们的自学能力。

探探前沿:了解AI生图技术的能力&局限

        AIGC是通过人工智能技术将关键词自动生成出对应的图片的生产方式,AI生图的快速发展,可能关于颠覆诸多传统的领域,如摄影、绘画等。

        最早的AI生图可追溯到20世纪70年代,当时艺术家哈罗德·科恩(Harold Cohen)发明了AARON,可以通过机械臂传输作画。

        现代的AI生图最早可追溯到2012年吴恩达基于深度学习神经网络基础上训练的能生成猫脸的模型。

        2015年,谷歌推出了“深梦”图像生成工具,可以基于给定图片生成梦幻版图片。

        2021年OpenAI推出ADLL-E模型,可以直接从文本提示生成风格多样的图形设计。

        2022年8月,AI生图正式走进大众的视野,当时的AI绘画作评《太空歌剧院》在美国科罗拉多州举办的新兴数字艺术家竞赛中获得了比赛“数字艺术/数字修饰照片”类别一等奖。

        通俗来说,AI生图模型是通过学习图片描述图片特征来获得图片的生成能力。在我们需要的时候通过输入文字,复现出对应特征的图片,从而生成了我们需要的图片。在大部分生图场景下,我们会经常觉得图片有“AI味”,这也是困扰很多开发者的一大问题。但是目前大部分模型已经具备了去除“AI味”的能力,且可能存在容易误导他人的情况,这时候我们想辨别就需要细致地观察图片的细节,检查光线和阴影,分析像素和注意背景。

       要了解AI生图的前言,我们可以从魔塔社区的各类AIGC工具开始探索、尝试、思考总结、实践,甚至开发出属于我们自己的工具。过去文生图主要以 SD 系列基础模型为主,仅支持英文的prompt,但可图是支持中文的文生图模型,文生图的prompt格式较为固定,魔塔社区还开源了专门的各种风格的可图优质咒语书,可以针对600+种不同风格,完善prompt,生成各种风格图片,可以在我们的学习当中使用。

Part1:认识通义千问

        通义千问作为阿里云旗下的一款大模型,能为我们自学提供许多额外的帮助。

Part2:精读baseline——从零入门AI生图

       在Task1中,我们已经顺利通过了教程并获得了baseline文件。尽管如此,有些同学可能对代码中的某些模块或行感到困惑,不清楚它们的具体作用。接下来,我们将利用通义千问的帮助来深入解析这份代码。

       首先将所有代码都提出来,并复制到通义千问中,令其添加注释便于我们学习,结果如下:

# 安装 Data-Juicer 和 DiffSynth-Studio
!pip install simple-aesthetics-predictor # 安装simple-aesthetics-predictor
!pip install -v -e data-juicer # 安装data-juicer
!pip uninstall pytorch-lightning -y # 卸载pytorch-lightning
!pip install peft lightning pandas torchvision # 安装 peft lightning pan
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值