精读代码,实战进阶
前面我们跑通了baseline,对baseline的代码也有了一个基本的理解,相信大家也对本次的学习充满信息,那么我们就在Task1的基础上继续深入。
今天我的任务是对baseline的代码有一个更加细致的理解,然后学习如何借助AI来提升我们的自学习能力,从而帮助大家在后面的学习工作中如何从容迎接各种挑战。授人以鱼不如授人以渔,你可以从中学大模型的提问技巧来实现快速学习,学会如何制作一个话剧连环画。
辅助工具准备
使用通义千问:
通义tongyi.ai_你的全能AI助手 (aliyun.com)
代码详解




对于上一期实际做的修改
1.图像描述词修改
以图像1为例
通义返回的正面词为:古风, 水墨画, 黑色长发少女, 淡雅汉服, 简单发饰, 古典书房, 四周环绕竹简书架, 专注听讲, 手拿毛笔, 面前展开宣纸, 上半身
所以我们在图像中午描述中写上:

注意:为防止与上一次图像冲突,需要修改文件名或者是更改生成目录。
2.最后返回大模型参数时修改寻找位置或者文件名
输出图像
我采取的迭代次数仅为30,可见与50次对比意义上稍显不明




对比思考
通过八张图片我们可以看到对于关键词DiffSynth-Studio在30次迭代下对于我们的图像已经能够初步表达效果,但是由于在第二层网络中并未强调图片的联系性,所以图片虽然在表层网络中有大致外貌上的相似,但是实际看来却并无故事联系感,推荐修改参数:
alpha=2.7
rank= 23
迭代次数改为100
增加字条连续
可得到如下图像,仅为第一张

1060

被折叠的 条评论
为什么被折叠?



