dots.vlm1 是小红书 hi lab 研发并开源的首个多模态大模型,借助一个从零训练的 12 亿参数视觉编码器以及基于 Deepseek V3 LLM 构建,在视觉的理解和推理任务上均有不错的表现。在大部分多模态评测集上接近闭源 SoTA 模型的水平,并在文本能力和主流文本模型相当。

01、介绍
我们很高兴地介绍 dots.vlm1,这是 dots 模型家族中的首个视觉语言模型。dots.vlm1 构建于一个 12 亿参数的视觉编码器和 DeepSeek V3 大语言模型(LLM)之上,具备强大的多模态理解与推理能力。
模型亮点:
- NaViT 视觉编码器:没有基于成熟视觉编码器进行微调,完全从零开始训练,原生支持动态分辨率。同时在文本监督上增加纯视觉监督,提升感知能力上限。此外,训练数据上在传统的 Image Caption 数据上还引入大量结构化图片进行原生训练,提升 VLM 模型的感知能力(例如各类 OCR 能力)。
- 多模态训练数据:在传统思路上,额外引入多种合成数据思路,覆盖多样的图片类型(例如表格/Chart/文档/Graphics等)及其描述(例如 Alt Text/Dense Caption/Grounding 等);同时,利用多模态大模型来重写图文交错网页数据,显著提升训练数据质量;
- 通过大规模预训练与精细化后训练调优,dots.vlm1 在视觉感知与推理方面达到了接近 SOTA 的表现,为开源视觉语言模型树立了新的性能上限,同时在纯文本任务中仍保持一定竞争力。
Github Repo:
https://github.com/rednote-hilab/dots.vlm1
Huggingface Model:
https://huggingface.co/rednote-hilab/dots.vlm1.inst
Demo:
https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo
特别感谢 DeepSeek 团队为我们提供了优秀的 DeepSeek V3 模型支持。

最低0.47元/天 解锁文章
2105

被折叠的 条评论
为什么被折叠?



