✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。
我是Srlua小谢,在这里我会分享我的知识和经验。🎥
希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。🔮
记得先点赞👍后阅读哦~ 👏👏
📘📚 所属专栏:传知代码论文复现
欢迎访问我的主页:Srlua小谢 获取更多信息和资源。✨✨🌙🌙
目录
本文所有资源均可在该地址处获取。
LVLMs简介
LVLMs是干什么的?其实非常好理解,简单来说就是GPT4o干的事情,输入一张图片和一句话,LVLMs会给出一个回答。GPT4目前是闭源的,目前开源的做法都是想法了接近gpt4的性能。而对于研究人员而言,没有强大的算力的支持,也只能在一些小规模的LVLMs上寻找一些方法上的创新。下面将介绍一种MOE-LLaVA的方法。
概述
最近的研究表明,扩大视觉语言模型(LVLMs)可以有效地提高下游任务的性能。然而,现有的放大方法使计算中的每个令牌的所有模型参数都是活动的,这带来了大量的训练和推断成本。在这项工作中,提出了一种简单而有效的LVLMs训练策略。该策略创新性地解决了多模态稀疏性学习中常见的性能下降问题,从而构建了具有大量参数但计算量恒定的稀疏模型。大量的实验表明,MoE-LLaVA在各种视觉理解和物体幻觉基准测试中表现显著。值得注意的是,只有大约3B个激活的参数,MoE-LLaVA在各种视觉理解数据集上的性能与LLaVA-1.5-7B相当,甚至在对象幻觉基准上超过了LLaVA-1.5-13B。通过MoE-LLaVA,我们的目标是建立稀疏lvlm的基线,并为未来开发更高效和有效的多模态学习系统的研究提供有价值的见解。
motivation
1.现有的LVLMs扩大数据规模,能够提升其效果。现有的稠密模型不利于扩展数据规模
2.为了解决拓展问题,通常采用稀疏专家的网络机构,而稀疏专家并不利于训练
contribution
1.提出了一种大模型稀疏化的方式
2.提出了一种训练稀疏模型的方法
模型概述
由浅入深的介绍模型的全部



最低0.47元/天 解锁文章
1576

被折叠的 条评论
为什么被折叠?



