视觉语言模型微调与评估全解析
视觉语言模型微调
视觉与语言的结合催生了许多独特有趣的任务,如视觉问答、文本到图像、文本到音乐(即“文本到万物”),还有图像字幕、视频字幕、视觉蕴含、定位等。这些模型在电商应用中可确保页面展示正确的商品,在电影行业能为分镜脚本生成新的创意点。
微调预训练的视觉语言模型,基本步骤与其他范式类似,需要一个基础模型和遵循相同标注模式的数据集。以Lensa应用为例,它让用户上传自己的照片,推测是利用这些照片对Stable Diffusion进行快速微调,再结合提示工具和内容过滤器将生成的图像反馈给用户。
Riffusion也是一个令人印象深刻的视觉语言微调案例。它构建了一个开源框架,将音频片段转换为频谱图(通过短时傅里叶变换),频谱图可作为声音的视觉特征,也能转换回音频。他们用音频片段的简短文本描述作为图像的文本标签,从而得到用于微调Stable Diffusion的标注数据集。微调后的模型能根据用户输入的文本提示(如“牙买加舞厅人声”或“日出DJ集”)生成相应的音频。而且,该项目还设计了一种新颖的平滑函数,可实现频谱图之间的无缝过渡,让用户在使用网站时能自然地从一种音乐模式切换到另一种。除了Riffusion,还有MusicLM、DiffusionLM、MuseNet等音乐生成项目。
评估基础模型
在进行大规模训练之前,需要完成以下步骤来评估是否有必要:
1. 在特定用例上测试开源模型。
2. 识别性能差距。
3. 在数据的小子集上微调同一开源模型。
4. 识别更小的性能差距。
评估基础模型分为两个阶段:一是关注预训练性能,如掩码语言建模损失、因果建模损
超级会员免费看
订阅专栏 解锁全文
2419

被折叠的 条评论
为什么被折叠?



