要学会利用GPT!

本次要实现的任务是从webui界面的stable diffusion中扣出图推prompt的代码版本;

  1. 找到了github库https://github.com/toriato/stable-diffusion-webui-wd14-tagger
  2. 发现该库停止维护,在讨论区找到了https://github.com/picobyte/stable-diffusion-webui-wd14-tagger
  3. 利用gpt感受到大概核心代码在stable-diffusion-webui-wd14-tagger-main/tagger/interrogator.py
  4. 尝试安装环境(不太成功,有些库停止维护了,甚至都下载不下来),尝试让GPT基于这份代码给出一个main入口调用interrogator.py里的类(因为缺少某些库,所以尝试改动原来的代码,删掉由那个库产生的变量,结果发现好多文件中都调用了那个库,删不完)。

最终解决方案:

找到模型的huggingface链接(SmilingWolf / wd-v1-4-vit-tagger),让GPT给出基于那个模型的运行代码,输入问题是:

能否给出一份代码,基于该项目库(20250401写这篇博文时意识到,应该是基于该模型文件),进行image2prompt stable diffusion版本的提示词生成

写出demo.py,跑通,再根据该代码,反推原项目中哪些部分匹配当前demo中的函数,重写不合理的地方。加深对原项目的理解后,彻底基于原项目写出demo2.py并跑通。Successsssssssssss!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!爽!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

总结

  1. 不建议改动源代码中的一些变量或者库调用,因为在原项目库中,代码间的耦合关系可能非常紧密;
  2. 如果调用原项目库,甩出一个类变量接口来也由于种种原因(如某些库无法下载)不能成功,参考第三点;
  3. 让GPT完全从头写一个基于模型的输出demo,反推原代码库函数作用;
  4. 办法总比困难多,不要轻言放弃。

当然,有一点也需要指出,就是尽量要对原项目库的核心代码(一份?或者两份?)也要稍微熟悉一点,这样在反推的时候可以精准定位到哪些函数是不需要对应考虑的。核心代码的定位可以依靠GPT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值