千问系列1 -- Qwen-VL

funNLPer

已于 2025-02-10 22:56:52 修改

阅读量404

点赞数

CC 4.0 BY-SA版权

分类专栏： AI算法文章标签：人工智能多模态大模型

于 2025-02-10 00:35:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/orangerfun/article/details/145504709

AI算法专栏收录该内容

26 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

在这里插入图片描述

论文：Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

Qwen-VL 是基于千问大语言模型训练的多模态大模型，其在多种任务上（如OCR、VQA、Caption等）表现都优于同尺寸模型，并且支持多语言、多图片理解，此外对于细粒度视觉理解表现也是极其优秀
在这里插入图片描述

1. Methodology

1.1 模型结构

整体由三部分组成
（1）大语言模型：采用了Qwen-7B，并由预训练权重进行初始化
（2）视觉编码器：采用了ViT架构，并通过 Openclip的 ViT-bigG 预训练权重初始化
（3）感知位置的视觉-语言适配器（adapter）：为了处理图片特征序列过长造成的效率问题，Qwen-VL引入了一个 visi

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。