多模大模型

微知girl

已于 2025-03-26 20:14:00 修改

阅读量207

点赞数 2

分类专栏： LLM 文章标签：多模 VL Qwen

于 2025-03-26 20:12:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/katrina1rani/article/details/146539728

版权

LLM 专栏收录该内容

3 篇文章

订阅专栏

<原力值失效>...

今天打开了csdn，惊喜（jingkong）的发现原力值失效了，本来以为我怎么也能每年有个几篇文章的，结果一看，自从换了工作，文章数断崖下降，23 24年居然一篇没有... 一定是因为被资本主义（gongsidalao）持续压榨中，真是天天都心力交瘁啊....

不多说废话了，简单总结下最近比较火的 qwen-vl, 先不说算法，先说下怎么用起来～

现在有很多框架，都支持各种大模型， vl的文本的都是支持的

说一种比较通用的方式：

step1: 拉取 llama factory最新代码到自己的分支下面 LLaMA Factory

然后，从魔塔下载对应的模型文件魔搭社区

按照 llama factory 给的示例写一个shell脚本调用就行

多模对应的数据大部分都是mllm打头，比较好找，注意vl的文件需要处理对应的训练数据，图片需要下载到本地，并且在训练文件中img_url 写入对应的图片地址

模型对比： qwen2.5效果比qwen2 好很多，具体可以参考这篇文章 https://zhuanlan.zhihu.com/p/11442714235，总结下就是qwen2还是初版小白的多模大模型， qwen2.5强化了很多文本侧的能力。模型大小的话，7b对比效果差距已经很明显了， 72b肯定是最惊艳的，7b一些基础任务效果已经很不错了，大家有兴趣可以尝试下看看～

先水一篇，要继续搬砖去了，有问题欢迎讨论，后续会继续补充丰富内容～

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

微知girl 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。