模型计算部分
医学的多模态模型在近年来在医学跨模态的任务上表现除了强大的能力(如视觉问答、文本生成和科学推理)。然和,和文本的token相比,视觉的token的数量往往更加庞大。在医学大模型conch中,处理一张病理图像将会涉及到超过1000个的视觉token,而对应的文本的token只有数十个,即使对于复杂的报告来说,文本的token也不会超过100个。尤其是当这些医学大模型处理的图像为WSI形式的病理图像的时候,图像部分涉及到的token数量将会更多。这种图像和文本token数量的极大不平衡将会带来如下问题。LLMs 的注意力机制复杂度随着输入 token 数量呈二次增长。这种计算成本的急剧增加对硬件资源提出了极高的要求,限制了多模态大模型的实际应用。尽管视觉数据包含丰富的信息,但其固有的空间稀疏性导致许多计算是冗余的。例如,大部分视觉 token 之间的交互权重很低,仅有邻近 token 之间的交互是关键。此外,在深层模型中,视觉 token 对文本生成的影响逐渐减弱,但现有计算模式并未有效利用这一特性。已有的优化策略,如减少视觉 token 数量或使用轻量化的语言模型,通常以牺牲模型性能为代价。如何在保持性能的同时显著降低计算复杂度,仍是一个急需解决的问题。所以,为了降低目前模型的开销,增加医学多模态模型的拓展性和部署效率。我们可以从目前模型的token、计算模式以及量化等方向入手。
---------------------------------- 解决方案 ------------------------
目前大多数医学的基础模型均使用到了Transformer的结构,在Transformer模型中,计算量的主要来源通常是自注意力机制和前馈神经网络。轻量化的主体网络结构设计将会有效提升模型的计算效率。在处理多模态的医学数据时,卷积可以通过局部感受野提取多模态医学图像数据的局部特征。在所有的位置都使用相同的卷积核参数,这种权重共享的可以大大减少模型的参数量。并且卷积神经网络可以通过池化等操作逐步减少特征图的空间维度。卷积相比于transformer在计算效率、参数共享、局部特征提取等方面有比较明显的优势。所以,我们可以通过结合卷积神经网络和VIT的优点,设计一种适合医