从零入门AI生图原理&实践
————可图Kolors-LoRA风格故事挑战赛
目录
一、基础知识
1、文生图的历史
文生图(Text-to-Image Generation)是一种通过文本生成图像的技术,其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。这一技术的历史可以分为几个关键阶段:
| 发展阶段 |
发展介绍 |
| 早期探索 (20世纪60年代-20世纪90年代) |
文生图的概念最早出现于计算机视觉和图像处理的早期研究中。 早期的图像生成技术主要依赖于规则和模板匹配,通过预定义的规则将文本转换为简单的图形。 然而,由于计算能力和算法的限制,这一阶段的技术能力非常有限,生成的图像质量较低,应用场景也非常有限。 |
| 基于统计模型的方法 (2000年代) |
进入2000年代,随着统计模型和机器学习技术的发展,文生图技术开始得到更多关注。 研究者们开始利用概率图模型和统计语言模型来生成图像。尽管这一阶段的技术在生成图像的多样性和质量上有了一定提升,但由于模型的复杂性和计算资源的限制,生成的图像仍然较为粗糙,不够逼真。 |
| 深度学习的崛起 (2010年代) |
2010年代是文生图技术发展的一个重要转折点。随着深度学习,尤其是卷积神经网络(CNN)和生成对抗网络(GAN)的发展,文生图技术取得了突破性进展。2014年,Goodfellow等人提出的GAN模型通过生成器和判别器的对抗训练,极大地提升了图像生成的质量。随后,各类变种GAN模型被提出,如DCGAN、Pix2Pix等,使得文生图技术在生成逼真图像方面达到了前所未有的高度。
|
| 大规模预训练模型 (2020年代) |
进入2020年代,大规模预训练模型如OpenAI的CLIP、DALL-E以及Stable Diffusion等的出现,标志着文生图技术进入了一个新的时代。 CLIP通过大规模的文本和图像配对数据训练,能够理解和生成高度一致的文本和图像;DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力,使得通过简单的文本描述生成高质量、复杂图像成为可能。 这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断,展现了广泛的商业价值和社会影响力。 |
2、文生图基础知识介绍
文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。

提示词:提示词很重要,一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家
Lora:Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。
ComfyUI:ComfyUI 是


最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



