阿里通义Qwen团队发布Qwen3-VL新模型:2B与32B参数版本覆盖多场景需求
近日,阿里通义Qwen团队宣布旗下视觉语言模型家族Qwen3-VL迎来重要更新,新增2B和32B两种密集(Dense)参数规模的模型版本。此次扩展使得Qwen3-VL从轻量化模型到中高端性能模型形成完整产品线,全面覆盖各类视觉语言理解应用场景。
据介绍,新发布的两个模型版本均提供两种不同定位的选择:Instruct版本专注于提升响应速度和执行稳定性,适用于日常对话交互及工具调用等基础任务;Thinking版本则重点强化长链条推理能力与复杂视觉内容理解,具备“看图思考”的高级功能,能更高效地应对高难度任务挑战。
官方数据显示,Qwen3-VL-32B模型在STEM领域问题解答、视觉问答(VQA)、光学字符识别(OCR)、视频内容理解以及代理任务等多个评测维度上,表现均优于GPT-5 mini和Claude 4 Sonnet。尤为值得关注的是,该模型仅使用320亿参数就实现了与2350亿参数模型相当的性能水平,在OSWorld评测基准中更是直接超越了上述两款竞品。
与此同时,Qwen3-VL-2B模型在保持超小体量的同时展现出惊人性能,能够在资源受限的端侧设备上运行,为开发者提供了更轻量化的实验与部署选择。团队表示,Qwen3-VL系列模型致力于让“看懂世界”这一能力变得更轻便、更快速、更智能,覆盖从基础的图像识别、文本生成,到复杂的逻辑推理、创意内容创作等全场景需求。
截至目前,Qwen3-VL家族已形成完整的开源模型矩阵,包括2B、4B、8B、32B四款密集型模型,以及30B-A3B、235B-A22B两款混合专家(MoE)模型。所有模型均同步提供Instruct和Thinking两个版本,并附带12个FP8量化版本,累计24个开源权重模型全部支持获取相关资源,进一步推动视觉语言技术在各行业的创新应用。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



