小红书 hi lab 开源多模态大模型 dots.vlm1,效果接近闭源 SoTA 模型

dots.vlm1 是小红书 hi lab 研发并开源的首个多模态大模型,借助一个从零训练的 12 亿参数视觉编码器以及基于 Deepseek V3 LLM 构建,在视觉的理解和推理任务上均有不错的表现。在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当。

01、介绍

我们很高兴地介绍 dots.vlm1,这是 dots 模型家族中的首个视觉语言模型。dots.vlm1 构建于一个 12 亿参数的视觉编码器和 DeepSeek V3 大语言模型(LLM)之上,具备强大的多模态理解与推理能力。

模型亮点

  • NaViT 视觉编码器:没有基于成熟视觉编码器进行微调,完全从零开始训练,原生支持动态分辨率。同时在文本监督上增加纯视觉监督,提升感知能力上限。此外,训练数据上在传统的 Image Caption 数据上还引入大量结构化图片进行原生训练,提升 VLM 模型的感知能力(例如各类 OCR 能力)。
  • 多模态训练数据:在传统思路上,额外引入多种合成数据思路,覆盖多样的图片类型(例如表格/Chart/文档/Graphics等)及其描述(例如 Alt Text/Dense Caption/Grounding 等);同时,利用多模态大模型来重写图文交错网页数据,显著提升训练数据质量;
  • 通过大规模预训练与精细化后训练调优,dots.vlm1 在视觉感知与推理方面达到了接近 SOTA 的表现,为开源视觉语言模型树立了新的性能上限,同时在纯文本任务中仍保持一定竞争力。

Github Repo:

https://github.com/rednote-hilab/dots.vlm1

Huggingface Model:

https://huggingface.co/rednote-hilab/dots.vlm1.inst

Demo:

https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo

特别感谢 DeepSeek 团队为我们提供了优秀的 DeepSeek V3 模型支持。

02、效果

2.1 评测指标

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值