低成本扩大输入图像分辨率,华中科大开源Monkey大模型,解锁密集文本问答的潜能
在给定的高分辨率的图像,通过滑动窗口将图像划分为更小的局部区域,然后Monkey对每个图片局部区域的编码器都增加了独立的Lora来识别和吸收每个图像区域的细节敏感特征,从而增强对空间和上下文关系的理解。开源社区发布的Monkey多模态大模型,输入分辨率支持896 x 1344像素,基于具有详细描述的高质量图文数据进行训练,在涉及图像文字、视觉问答、文档分类以及图像理解等多模态任务的18个不同的数据集上进行了测试,Monkey在其中16个测试数据集上皆取得SOTA的成绩。
原创
2024-01-27 10:38:33 ·
965 阅读 ·
0 评论