Datawhale AI夏令营第四期魔搭-AIGC方向 task01 从零入门AI生图原理&实践

原创

已于 2024-08-13 11:47:23 修改 · 1.1k 阅读

·

16

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #AIGC #笔记

于 2024-08-10 12:15:55 首次发布

从零入门AI生图原理&实践

————可图Kolors-LoRA风格故事挑战赛

目录

从零入门AI生图原理&实践

一、基础知识

1、文生图的历史

2、文生图基础知识介绍

二、小白零基础 30 分钟速通指南

Step0：开通阿里云PAI-DSW试用

Step1：报名赛事！(点击即可跳转)

Step2：在魔搭社区创建PAI实例！（点击即可跳转）

Step3：30 分钟体验一站式 baseline！

Step4：微调结果上传魔搭（点击即可跳转）

三、关闭PAI实例！！！！（点击即可跳转）

一、基础知识

1、文生图的历史

文生图（Text-to-Image Generation）是一种通过文本生成图像的技术，其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。这一技术的历史可以分为几个关键阶段：

发展阶段

发展介绍

早期探索

（20世纪60年代-20世纪90年代）

文生图的概念最早出现于计算机视觉和图像处理的早期研究中。

早期的图像生成技术主要依赖于规则和模板匹配，通过预定义的规则将文本转换为简单的图形。

然而，由于计算能力和算法的限制，这一阶段的技术能力非常有限，生成的图像质量较低，应用场景也非常有限。

基于统计模型的方法

（2000年代）

进入2000年代，随着统计模型和机器学习技术的发展，文生图技术开始得到更多关注。

研究者们开始利用概率图模型和统计语言模型来生成图像。尽管这一阶段的技术在生成图像的多样性和质量上有了一定提升，但由于模型的复杂性和计算资源的限制，生成的图像仍然较为粗糙，不够逼真。

深度学习的崛起

（2010年代）

2010年代是文生图技术发展的一个重要转折点。随着深度学习，尤其是卷积神经网络（CNN）和生成对抗网络（GAN）的发展，文生图技术取得了突破性进展。2014年，Goodfellow等人提出的GAN模型通过生成器和判别器的对抗训练，极大地提升了图像生成的质量。随后，各类变种GAN模型被提出，如DCGAN、Pix2Pix等，使得文生图技术在生成逼真图像方面达到了前所未有的高度。

大规模预训练模型

（2020年代）

进入2020年代，大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现，标志着文生图技术进入了一个新的时代。

CLIP通过大规模的文本和图像配对数据训练，能够理解和生成高度一致的文本和图像；DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力，使得通过简单的文本描述生成高质量、复杂图像成为可能。

这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断，展现了广泛的商业价值和社会影响力。

2、文生图基础知识介绍

文生图主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

提示词：提示词很重要，一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

Lora：Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

ComfyUI：ComfyUI 是

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。