BEI III-优快云博客

原创 LLaVA问题记录：Some weights were not used& attention mask and the pad token id were not set

LLaVA问题记录：Some weights of the model checkpoint were not used when initializing LlavaLlamaForCausalLM&The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to

2025-01-15 19:07:22 529

原创 LLaVA finetune.sh中loss一直为0的问题解决记录

使用finetune.sh做微调遇到loss经过两三条后一直保持0的情况,{'loss': 0.0, 'learning_rate': 2.631578947368421e-06, 'epoch': 0.0}

2025-01-15 15:12:34 328

原创 wandb一直uploading data解决方法

wandb uploading data...解决

2025-01-11 14:06:34 228

原创 ssh 链接远程服务器，key_load_private: bad permissions解决

vscodessh连接报错解决：Permissionsfor'D:\\id_rsa'aretooopen.ItisrequiredthatyourprivatekeyfilesareNOTaccessiblebyothers.Thisprivatekeywillbeignored.Loadkey"D:\\id_rsa":badpermissionsuser@ip:Permissiondenied(publickey).

2025-01-07 22:46:59 270

原创 LLaVA-UHD: 高效感知任意宽高比和高分辨率图像的大型多模态模型

本文提出了LLaVA-UHD，这是一种能够高效感知任意宽高比和高分辨率图像的大型多模态模型。该模型通过以下三个关键组件解决了现有LMMs的局限性：图像模块化策略：将原生分辨率的图像分割成更小的可变尺寸切片，以实现高效和可扩展的编码。压缩模块：进一步压缩视觉编码器生成的图像令牌，减少LLMs的计算量。空间模式组织：将压缩后的切片令牌按空间模式组织，以告知LLMs切片在图像中的位置。

2024-12-05 20:10:38 1057

原创 PP-LLaVA | 同时实现了Token压缩和指令感知视觉特征聚合

PP-LLaVA | 同时实现了Token压缩和指令感知视觉特征聚合

2024-12-05 20:06:03 106

原创 MG-LLaVA: 处理多种粒度的视觉输入

本文引入了一种名为MG-LLaVA的先进多模态模型，该模型能够处理多种粒度的视觉输入，包括对象级特征、低分辨率图像和高分辨率图像。这一进步显著增强了MLLMs在视觉感知和理解方面的能力

2024-10-28 15:11:30 648

原创 Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models

Monkey提出了一种自动多层次描述生成方法，通过结合多个先进的系统（如BLIP2、PPOCR、GRIT、SAM和ChatGPT），生成高质量、丰富的描述数据，以弥补现有数据集的不足。无需预训练，支持分辨率高达1344×896。上下文关联。我们引入了一种多级描述生成方法，提高了模型掌握多个目标之间关系的能力，并更有效地利用常识来生成文本描述。在许多评估数据集的性能增强。

2024-10-14 11:53:40 1027

原创 FlexAttention for Efficient High-Resolution Vision-Language Models

现有的VLMs在处理高分辨率图像时存在局限性。许多模型虽然能够处理高分辨率图像，但它们需要对所有高分辨率图像块进行密集计算，这会消耗大量的计算资源。这种处理方式与人类视觉推理的方式不符，人类通常首先保持粗略的图像表示，只有在需要时才关注特定区域以获取更多细节--高分辨率VLMs需要灵活动态地关注基于低分辨率特征的兴趣区域，用于高分辨率细节检索。

2024-09-25 13:50:44 699

原创 HiRes-LLaVA

HiRes-LLaVA阅读笔记，这是一种在不破坏原始上下文和空间几何形状的情况下将高分辨率数据集成到 LVLM 中的有效方法。

2024-09-22 12:39:34 558

原创 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

本文主要介绍了作者针对多模态语言模型（Multimodal Language Models, MLLMs）中存在的视觉能力不足问题所进行的研究。作者通过设计了Multimodal Visual Patterns (MMVP) benchmark和Visual Question Answering (VQA) benchmark，通过构建问题和图像对来评估MLLMs的视觉能力，发现当前的MLLMs在处理基本视觉问题时存在困难。作者提出了Mixture-of-Features (MoF)方法来改善MLLMs的视

2024-09-19 15:05:57 869

m0_56711618的博客

原创 LLaVA问题记录：Some weights were not used& attention mask and the pad token id were not set

原创 LLaVA finetune.sh中loss一直为0的问题解决记录

原创 wandb一直uploading data解决方法

原创 ssh 链接远程服务器，key_load_private: bad permissions解决

原创 LLaVA-UHD: 高效感知任意宽高比和高分辨率图像的大型多模态模型

原创 PP-LLaVA | 同时实现了Token压缩和指令感知视觉特征聚合

原创 MG-LLaVA: 处理多种粒度的视觉输入

原创 Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models

原创 FlexAttention for Efficient High-Resolution Vision-Language Models

原创 HiRes-LLaVA

原创 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

原创 2023厦门大学人工智能夏令营机试

原创动手深度学习convolutional-modern网络对比总结

原创 Opencv人脸检测应用-识别4个室友

原创蓝桥杯2020A组c++初赛

原创 2021蓝桥杯c++A组回路计数,砝码称重

原创使用Git向Github上传项目（包含大文件＞25mb）

空空如也

空空如也