前言
对于ai训练来说,处理训练集是模型训练的重要环节。训练集的质量对最终模型的质量影响巨大。这里以二次元角色为例,记录下训练集处理的流程和一些心得。
素材准备
素材准备有以下几个需要注意的点:
- 通常训练二次元角色需要30张以上的图片,训练三次元角色需要50张以上的图片。原因是三次元图像里面包含的细节更多。
- 训练集最关键的是“质”而不是“量”。单纯堆图片数量并不能保证好的训练效果。
- 训练集图片需要保证图片中仅包含训练角色一个人物,其他人物需要裁剪掉。
- 训练集图片中人物尽可能包含不同的角度,动作,服饰,风格。
- 训练集图片中一些有负面影响的元素需要适当删改掉,比如文字,水印等。不好处理可以涂抹掉。
素材裁剪
stable diffusion常用的模型是基于SD1.5的,建议尺寸不要高于768,不小于512。尺寸过大对于显存的要求会很高。
素材裁剪可以使用【分割过大的图像】,重叠比例可以适当调高,这样裁剪出来的图像更多,更适合挑选。
素材打标
素材打标通常是先自动打标,再根据一定的规则进行手动删改。
自动打标
自动打标可以使用WD1.4反推工具。
简单介绍WD1.4的用法