16、视觉语言模型微调与评估全解析

最新推荐文章于 2025-10-13 14:32:28 发布

饼干CSS

最新推荐文章于 2025-10-13 14:32:28 发布

阅读量48

点赞数

CC 4.0 BY-SA版权

分类专栏：预训练视觉与语言模型文章标签：视觉语言模型微调评估指标

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/j2k3l4/article/details/151095884

预训练视觉与语言模型专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

视觉语言模型微调与评估全解析

视觉语言模型微调

视觉与语言的结合催生了许多独特有趣的任务，如视觉问答、文本到图像、文本到音乐（即“文本到万物”），还有图像字幕、视频字幕、视觉蕴含、定位等。这些模型在电商应用中可确保页面展示正确的商品，在电影行业能为分镜脚本生成新的创意点。

微调预训练的视觉语言模型，基本步骤与其他范式类似，需要一个基础模型和遵循相同标注模式的数据集。以Lensa应用为例，它让用户上传自己的照片，推测是利用这些照片对Stable Diffusion进行快速微调，再结合提示工具和内容过滤器将生成的图像反馈给用户。

Riffusion也是一个令人印象深刻的视觉语言微调案例。它构建了一个开源框架，将音频片段转换为频谱图（通过短时傅里叶变换），频谱图可作为声音的视觉特征，也能转换回音频。他们用音频片段的简短文本描述作为图像的文本标签，从而得到用于微调Stable Diffusion的标注数据集。微调后的模型能根据用户输入的文本提示（如“牙买加舞厅人声”或“日出DJ集”）生成相应的音频。而且，该项目还设计了一种新颖的平滑函数，可实现频谱图之间的无缝过渡，让用户在使用网站时能自然地从一种音乐模式切换到另一种。除了Riffusion，还有MusicLM、DiffusionLM、MuseNet等音乐生成项目。

评估基础模型

在进行大规模训练之前，需要完成以下步骤来评估是否有必要：
1. 在特定用例上测试开源模型。
2. 识别性能差距。
3. 在数据的小子集上微调同一开源模型。
4. 识别更小的性能差距。

评估基础模型分为两个阶段：一是关注预训练性能，如掩码语言建模损失、因果建模损

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。