小算力LVLMs,gpt4平替


✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨

🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢,在这里我会分享我的知识和经验。🎥

希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏:传知代码论文复现

欢迎访问我的主页:Srlua小谢 获取更多信息和资源。✨✨🌙🌙

​​

​​

目录

LVLMs简介

概述

motivation

contribution

模型概述

1.基本框架

2.稀疏化

训练方法

stage1——训练视觉和文本对齐

stage2——获得初始化FFN

stage3——训练MoE网络

实验结果分析

可视化的实验效果

训练

在Gqa数据集下进行测试

测试逻辑

网页demo

附件提供


 本文所有资源均可在该地址处获取。

LVLMs简介

LVLMs是干什么的?其实非常好理解,简单来说就是GPT4o干的事情,输入一张图片和一句话,LVLMs会给出一个回答。GPT4目前是闭源的,目前开源的做法都是想法了接近gpt4的性能。而对于研究人员而言,没有强大的算力的支持,也只能在一些小规模的LVLMs上寻找一些方法上的创新。下面将介绍一种MOE-LLaVA的方法。

概述

最近的研究表明,扩大视觉语言模型(LVLMs)可以有效地提高下游任务的性能。然而,现有的放大方法使计算中的每个令牌的所有模型参数都是活动的,这带来了大量的训练和推断成本。在这项工作中,提出了一种简单而有效的LVLMs训练策略。该策略创新性地解决了多模态稀疏性学习中常见的性能下降问题,从而构建了具有大量参数但计算量恒定的稀疏模型。大量的实验表明,MoE-LLaVA在各种视觉理解和物体幻觉基准测试中表现显著。值得注意的是,只有大约3B个激活的参数,MoE-LLaVA在各种视觉理解数据集上的性能与LLaVA-1.5-7B相当,甚至在对象幻觉基准上超过了LLaVA-1.5-13B。通过MoE-LLaVA,我们的目标是建立稀疏lvlm的基线,并为未来开发更高效和有效的多模态学习系统的研究提供有价值的见解。

motivation

1.现有的LVLMs扩大数据规模,能够提升其效果。现有的稠密模型不利于扩展数据规模
2.为了解决拓展问题,通常采用稀疏专家的网络机构,而稀疏专家并不利于训练

contribution

1.提出了一种大模型稀疏化的方式
2.提出了一种训练稀疏模型的方法

模型概述

由浅入深的介绍模型的全部

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值