(十一)关于InternVL2的模型结构——源码解析InternVL2的网络结构(modeling_internvl_chat.py)

(十一)关于InternVL2的模型结构——源码解析InternVL2的网络结构(modeling_internvl_chat.py)


前言

本章节将介绍下InternVL2的模型结构,主要是网络的组成部分,运行时的前向传播等。其中内容不会太深,涉及的代码也不会太多,毕竟逐步理解代码的话需要写很大篇幅。
之所以会有这篇文章,是因为我在查看InternVL2的模型结构时有一点小疑问,需要梳理一遍网络的流向,所以我觉得这一点还是值得介绍一下 的。


关于多模态的组成简介

目前的多模态模型一般是由 视觉层(VIT)、语言层(LLM)、对齐层(MLP) 三个部分组成。视觉层负责从图像或视频输入中提取高维特征,主要是由CNN、Transformer等组件构成;语言层负责从文本输入中提取语义信息,或者生成与视觉输入相关的文本,主要由Transformer架构的语言模型构成;对齐层负责将视觉和语言信息结合在一起,使模型能够理解跨模态(从图像->文字)的关系。
多模态模型的结构一般有下面几种:

  1. VIT—MLP—LLM
    这是最典型的对齐层位置,对齐层的任务是将视觉特征和语言特征映射到同一个空间,并进行融合。描述流向的话大概如下:

                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值