16、视觉语言模型微调与评估全解析

视觉语言模型微调与评估全解析

视觉语言模型微调

视觉与语言的结合催生了许多独特有趣的任务,如视觉问答、文本到图像、文本到音乐(即“文本到万物”),还有图像字幕、视频字幕、视觉蕴含、定位等。这些模型在电商应用中可确保页面展示正确的商品,在电影行业能为分镜脚本生成新的创意点。

微调预训练的视觉语言模型,基本步骤与其他范式类似,需要一个基础模型和遵循相同标注模式的数据集。以Lensa应用为例,它让用户上传自己的照片,推测是利用这些照片对Stable Diffusion进行快速微调,再结合提示工具和内容过滤器将生成的图像反馈给用户。

Riffusion也是一个令人印象深刻的视觉语言微调案例。它构建了一个开源框架,将音频片段转换为频谱图(通过短时傅里叶变换),频谱图可作为声音的视觉特征,也能转换回音频。他们用音频片段的简短文本描述作为图像的文本标签,从而得到用于微调Stable Diffusion的标注数据集。微调后的模型能根据用户输入的文本提示(如“牙买加舞厅人声”或“日出DJ集”)生成相应的音频。而且,该项目还设计了一种新颖的平滑函数,可实现频谱图之间的无缝过渡,让用户在使用网站时能自然地从一种音乐模式切换到另一种。除了Riffusion,还有MusicLM、DiffusionLM、MuseNet等音乐生成项目。

评估基础模型

在进行大规模训练之前,需要完成以下步骤来评估是否有必要:
1. 在特定用例上测试开源模型。
2. 识别性能差距。
3. 在数据的小子集上微调同一开源模型。
4. 识别更小的性能差距。

评估基础模型分为两个阶段:一是关注预训练性能,如掩码语言建模损失、因果建模损

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值