
多模态
文章平均质量分 95
呆呆的猫
爱发呆 爱抹茶 一直在路上
展开
-
【多模态】45、Internvl-MPO | 使用混合偏好优化的方式来提升多模态模型的推理能力
本文主要介绍如何使用 MPO 方法提升多模态模型的推理能力原创 2025-02-07 11:03:43 · 767 阅读 · 0 评论 -
【多模态】44、【LLaVA-OneVision】LLaVA-Next 家族大一统!数据集大一统!
本文主要介绍 LLaVA-OneVision原创 2024-08-08 17:33:38 · 2502 阅读 · 0 评论 -
【多模态】43、INF-LLAVA | 使用双视角裁剪和双视角增强模块来提升模型对大分辨率图片的处理能力
本文主要介绍多模型模型 INF-LLAVA原创 2024-08-06 10:08:30 · 1229 阅读 · 0 评论 -
【多模态】42、LLaVA-UHD | 支持任意纵横比和大分辨率图像输入的 LLaVA
本文主要介绍 LLaVA-UHD原创 2024-07-19 17:15:10 · 1898 阅读 · 0 评论 -
【多模态】41、VILA | 打破常规多模态模型训练策略,在预训练阶段就微调 LLM 被证明能取得更好的效果!
本文主要介绍 VILA原创 2024-07-08 18:36:57 · 1444 阅读 · 0 评论 -
【多模态】40、ConvLLaVA | 使用 ConvNeXt 为 LLaVA 实现更高分辨率的输入
本文主要介绍多模态模型 ConvLLaVA原创 2024-07-08 16:43:11 · 1215 阅读 · 0 评论 -
【多模态】39、HRVDA | 基于高分辨率输入的高效文档助手(CVPR2024)
本文主要介绍多模态模型 HRVDA原创 2024-06-18 17:17:29 · 1165 阅读 · 0 评论 -
【多模态】38、DT-VQA | 专为提升多模态大模型的密集文本场景能力的数据集
本文主要介绍 DT-VQA原创 2024-06-07 15:56:17 · 1572 阅读 · 0 评论 -
【多模态】37、TextSquare | 借助 Gemini-Pro 通过四个步骤来生成高质量的文本问答数据
本文主要介绍 TextSquare原创 2024-06-07 10:54:41 · 921 阅读 · 0 评论 -
【多模态】36、ShareGPT4V | 借助 GPT4V 的能够来生成更丰富的 caption 用于提升 LMM 模型的能力
本文主要介绍 ShareGPT4V原创 2024-06-06 17:06:48 · 1804 阅读 · 0 评论 -
【多模态】35、TinyLLaVA | 3.1B 的 LMM 模型就可以实现 7B LMM 模型的效果
本文主要介绍 TinyLLaVA原创 2024-06-06 12:00:01 · 1813 阅读 · 1 评论 -
【多模态】34、LLaVA-v1.5 | 微软开源,用极简框架来实现高效的多模态 LMM 模型
本文主要介绍多模态大模型 LLava-v1.5原创 2024-06-02 19:28:18 · 2955 阅读 · 0 评论 -
【多模态】33、mPLUG-Owl | 阿里猫头鹰模型,引入调制模块来强化图像和文本的对齐
本文主要介绍阿里猫头鹰模型 mPLUG-Owl 模型原创 2024-05-17 14:30:18 · 1490 阅读 · 0 评论 -
【多模态】32、TextMonkey | 一个 OCR-Free 的专门针对文档理解的大型多模态模型
本文主要介绍多模态模型 TextMonkey原创 2024-05-16 17:30:16 · 1545 阅读 · 0 评论 -
【多模态】31、Qwen-VL | 一个开源的全能的视觉-语言多模态大模型
本文主要介绍 Qwen-VL 模型原创 2024-05-15 18:12:44 · 3571 阅读 · 0 评论 -
【多模态】30、Monkey | 支持大尺寸图像输入的多任务多模态大模型
本文主要介绍多模态大模型 Monkey原创 2024-05-14 17:27:52 · 1765 阅读 · 2 评论 -
【多模态】29、OCRBench | 为大型多模态模型提供一个 OCR 任务测评基准
本文主要介绍 OCRBench原创 2024-05-05 22:47:52 · 5872 阅读 · 0 评论 -
【多模态】28、LLaVA 第一版 | Visual Instruction Tuning 多模态模型的指令微调
本文主要介绍 LLaVA 第一版模型原创 2024-02-29 17:31:15 · 5093 阅读 · 2 评论 -
【多模态】27、Vary | 通过扩充图像词汇来提升多模态模型在细粒度感知任务(OCR等)上的效果
本文主要介绍多模态模型 Vary原创 2024-02-06 18:38:41 · 2156 阅读 · 0 评论 -
【多模态】26、视觉-文本多模态任务超详细介绍 「CLIP/LSeg/ViLD/GLIP/ALBEF/BLIP/CoCa/BEIT」
本文主要介绍典型的图文多模态任务原创 2023-08-20 21:45:38 · 6659 阅读 · 2 评论 -
【多模态】25、ViLT | 轻量级多模态预训练模型(ICML2021)
本文主要介绍 ICML2021 ViLT原创 2023-08-12 18:14:02 · 2039 阅读 · 0 评论 -
【多模态】24、开放词汇学习到底是什么?
本文主要介绍开放词汇学习原创 2023-08-08 17:18:51 · 6080 阅读 · 0 评论 -
【多模态】23、RO-ViT | 基于 Transformer 的开放词汇目标检测(CVPR2023)
本文主要介绍 RO-ViT原创 2023-07-31 18:53:20 · 1504 阅读 · 0 评论 -
【多模态】22、UniDetector | 检测开放世界中的一切!(CVPR2023)
本文主要介绍 CVPR2023 开放世界目标检测方法 UniDetector原创 2023-07-31 00:00:41 · 3549 阅读 · 0 评论 -
【多模态】21、BARON | 通过引入大量 regions 来提升模型开放词汇目标检测能力(CVPR2021)
本文主要介绍 BARON原创 2023-07-30 18:12:47 · 1392 阅读 · 0 评论 -
【多模态】20、OVR-CNN | 使用 caption 来实现开放词汇目标检测
本文主要介绍 CVPR2021 开放词汇目标检测方法 OVR-CNN原创 2023-07-30 13:17:28 · 2104 阅读 · 0 评论 -
【多模态】19、RegionCLIP | 基于 Region 来实现视觉语言模型预训练
本文主要介绍 RegionCLIP原创 2023-07-28 17:32:26 · 5019 阅读 · 3 评论 -
【多模态】18、ViLD | 通过对视觉和语言知识蒸馏来实现开集目标检测(ICLR2022)
本文主要介绍 ViLD原创 2023-07-28 10:41:16 · 3564 阅读 · 1 评论 -
【多模态】17、CORA | 将 CLIP 使用到开集目标检测
本文主要介绍 CORA原创 2023-07-23 14:50:05 · 5149 阅读 · 2 评论 -
【多模态】16、DetCLIP | 构建超大词汇字典来进行开放世界目标检测
代码:无。。。出处:NIPS2022 | 华为诺亚方舟 | 中山大学 | 香港科技大学。原创 2023-07-23 13:19:23 · 2253 阅读 · 0 评论 -
【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM
本文主要介绍 MobileSAM原创 2023-06-27 23:39:13 · 1473 阅读 · 2 评论 -
【多模态】14、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM
本文主要介绍 segment anything原创 2023-04-08 16:35:52 · 8162 阅读 · 7 评论 -
【多模态】13、Vision-Language 模型在视觉任务中的调研
本文主要介绍了 vision-language 模型在视觉任务中的使用原创 2023-06-17 18:49:03 · 2591 阅读 · 1 评论 -
【多模态】12、MM-OVOD | 同时使用文本示例和图像示例来指导分类
本文主要介绍多模态提示分类器 MM-OVOD原创 2023-06-22 12:25:25 · 1258 阅读 · 0 评论 -
【多模态】11、Grounding DINO | 将 DINO 扩展到开集目标检测
本文主要介绍开集目标检测方法 Grounding DINO原创 2023-06-10 22:30:29 · 5352 阅读 · 6 评论 -
【多模态】10、GLIPv2 | 在 GLIP 上扩展 negative phrase 并新增分割功能
本文主要介绍 GLIPv2原创 2023-06-05 19:24:45 · 2782 阅读 · 0 评论 -
【多模态】9、GLIP | 首次将 object detection 重建为 phrase grounding 任务
本文主要介绍 GLIP原创 2023-06-05 19:24:10 · 5123 阅读 · 9 评论 -
【多模态】8、MDETR | LeCun 团队于 2021 年推出的端到端多模态理解模型
本文主要介绍 ICCV2021 Oral 文章 MDETR原创 2023-05-20 23:39:11 · 822 阅读 · 0 评论 -
【多模态】7、DINO | 针对 DETR-like 检测器的提升
本文主要介绍 DINO原创 2023-06-05 19:21:30 · 1297 阅读 · 0 评论 -
【多模态】6、BLIP-2 | 使用 Q-Former 连接冻结的图像和语言模型 实现高效图文预训练
本文主要介绍 BLIP-2原创 2023-04-11 22:37:45 · 13958 阅读 · 4 评论