qwenvl 模型理解:
-
参考资料:
https://qwenlm.github.io/zh/blog/qwen2-vl/
https://github.com/QwenLM/Qwen2-VL?tab=readme-ov-file
https://qwenlm.github.io/zh/blog/qwen2-vl/ -
论文:
qwenvl https://arxiv.org/abs/2308.12966
Qwen2-VL https://arxiv.org/pdf/2409.12191
最近正好在做qwenvl 总结记录一下qwenvl 以及qwenvl2模型的架构,本文主要聚焦模型架构和训练技术,其他内容后面有涉及再补
注意:要了解qwenvl 2需要先理解qwenvl ,因为qwenvl 2文章明确提到qwenvl 2的架构是和qwenvl保持一致的
由于我主要关注模型架构,因此读论文的时候读完摘要直接看model architecture
qwenvl
架构图
qwenvl架构很简单,就是三个部分:
-
QwenLM: 作为Qwen-VL模型的基础组件,这个部分采用了一个大型语言模型,其初始权重来自于预训练的Qwen-7B模型。
如果大家看一下代码的话,这个模型的结构和经典的llamma等大模型没什么区别 -
ViT