
多模态大模型
文章平均质量分 95
FesianXu
腾讯-微信事业群-高级算法工程师, 百度-搜索策略部-前高级算法工程师。 主要从事多模态检索、视频检索、信息检索,大模型落地应用等领域工作。
展开
-
解耦多模态大模型中的视觉语义压缩与视觉语义摘要
在多模态大模型中,视觉连接器大致可以分为压缩型和非圧缩型,其中BLIP2提出的Q-Former [1] 是压缩型视觉连接器的代表工作之一。在论文 [2] 中,作者对Q-Former的作用提出了质疑和分析,本文进行笔记,希望对读者有所帮助。原创 2024-11-06 00:48:25 · 871 阅读 · 0 评论 -
Alignment与Correspondence,用于量化衡量MLLM中视觉特征的视觉语义对齐与视觉结构程度的方法
在多模态大模型(Multimodal Large Language Model, MLLM)中,视觉特征就像是人的眼睛,而底座的LLM则像是人的大脑,合适的视觉特征的选择通常都是一个MLLM成功的重要一步。本文介绍一种可以用于高效选择合适的视觉特征的方法,如有谬误请见谅并联系指出,本文遵守。关键字:高效的MLLM视觉特征选择、定量衡量视觉语义对齐、定量衡量视觉结构特征知乎专栏:计算机视觉/计算机图形理论与应用微信公众号:机器学习杂货铺3号店视觉编码器,可以是CLIP、SigLIP、DINO等。原创 2024-10-06 15:19:53 · 1312 阅读 · 1 评论