
大模型
文章平均质量分 95
研究各种aigc相关大模型的理论部分
万里鹏程转瞬至
一名热爱深度学习算法实践的算法工程师,工作日长期活动在线,有项目研发技术问题均可私聊。
展开
-
InternVL2.5相比与InternVL2性能提升的关键工作分析
InternVL2.5是第一个在 MMMU 基准上达到 70% 以上的开源 MLLM, 其以InternVL2的研究工作为基础,在模型结构上没有过多调整,但在数据处理逻辑、模型训练策略、训练数据增广方式进行优化,从而实现了有效的整体涨点。原创 2025-03-10 00:15:00 · 763 阅读 · 0 评论 -
InternVL2: Better than the Best—Expanding Performance Boundaries of Open-Source Multimodal Models
基于对InternVL2的分析,可以得到以下经验:1、对于将预训练好的VIT与LLM模型组装成mllm模型时,可以只训练MLP部分,实现快速的模态对齐2、llm部分的升级可以大幅度提升mllm模型的效果,尤其是在非标准格式问答中3、数据分布域的改变,导致在标准格式输出,如grounding任务中,模型性能的下降(这表明模型能力的提升不一定是全面的)原创 2025-03-09 03:30:00 · 839 阅读 · 0 评论 -
论文快过:Root Mean Square Layer Normalization
RMSNorm假设LayerNorm中的重新定心不变性是可或缺的,RMSNorm根据均方根(RMS)对一层神经元的求和输入进行正则化,给出了模型的重新缩放不变性和隐式学习率适应能力。RMSNorm在计算上更简单,因此比LayerNorm更有效。我们还提出了部分RMSNorm,或pRMSNorm,其中RMS是从求和输入的p%估计的,而不破坏上述属性。在使用不同网络架构的几个任务上进行的大量实验表明,RMSNorm实现了与LayerNorm相当的性能,但在差异上减少了7%的∼64%原创 2024-11-23 08:45:52 · 983 阅读 · 0 评论 -
论文阅读:Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
公开时间:2024年10月3日Qwen2-VL是对之前的Qwen-VL模型的高级升级,重新定义了视觉处理中传统的预定分辨率方法。。这种方法允许模型生成更有效和更准确的视觉表征,与人类的感知过程密切一致。。我们,Qwen2-VL研究了大型视觉语言模型(LVLMs)的缩放定律。通过扩展模型的大小-2B、8B和72B参数的版本和训练数据的量,Qwen2-VL系列实现了具有高度竞争力的性能。原创 2024-10-07 22:08:06 · 2726 阅读 · 0 评论 -
论文阅读:LLaVA-OneVision: Easy Visual Task Transfer
LLaVA-OneVision是一个开放的大型多模态模型(LMMs),它是通过整合在LLaVA-NeXT博客系列中的数据、模型和可视化表示的见解而开发的。实验结果表明,LLaVA-OneVision是第一个能够在三个重要的计算机视觉场景:单图像、多图像和视频场景的单一模型。论文的核心是分享了一个OneVision的架构设计,以统一对单图、多图及视频任务的训练框架(token编码规则),将单图训练的能力迁移到多图与视频中。同时分享了一种动态分辨率设计规则,以提供更好的视觉表示(兼容图像视频);最后介绍了训练数原创 2024-10-07 00:12:13 · 2009 阅读 · 0 评论 -
论文阅读:InternVL v1.5| How Far Are We to GPT-4V? 通过开源模型缩小与商业多模式模型的差距
基于强视觉编码器 、动态高分辨率、高质量双语数据集,InternVL v1.5显示了具有和专有的商业模型相竞争的性能,在18个多模态基准中的8个中取得了最先进的结果。InternVL1.5,是一个开源的多模态大型语言模型(MLLM),可以在多模态理解中弥合开源和专有商业模型之间的能力差距。我们介绍了三个简单的改进: (1)强视觉编码器:我们探索了大规模视觉基础模型的持续学习策略InternViT-6b,提高其视觉理解能力,并使其可以在不同的llm中转移和重用。(2)动态高分辨率。原创 2024-10-06 11:20:33 · 1890 阅读 · 5 评论 -
论文阅读:ORYX MLLM: ON-DEMAND SPATIAL-TEMPORAL UNDERSTANDING AT ARBITRARY RESOLUTION
1、在本论文中展示分辨率对于不同任务的影响,可以发现对于MMBench、TextVQA分辨率对效果影响不大,而MMMU、DovVQA、OCRBench则要求更高的分辨率输入。2、ORYX-7b模型在图像领域,OCRBench、TextVQA val DocVQA test上效果不如2~3个月开源的MiniCPM-Llama-V 2.5、InternVL2-8B、MiniCPM-V 2.6 8b等模型;在视频领域,video-mme基准上也不如MiniCPM-V 2.6 8b、Qwen2-VL 7b等模型;原创 2024-10-06 10:30:00 · 903 阅读 · 0 评论 -
论文阅读:InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
1、计了一个大规模的视觉-语言基础模型(InternVL),该模型将视觉基础模型扩展到60亿个参数(InternVIT),并使用来自不同来源的网络规模的图像-文本数据逐步将其与LLM对齐;2、所实现的InternVIT在ViT-22B规模下可以作为最佳选择,在图像级或像素级识别,视觉语言任务,如zero-shot图像/视频分类,zero-shot图像/视频文本检索,均取得良好效果;3、论文的核心思想在于扩展VLLM的VIT部分,以使得视觉部分与LLM部分参数量对齐;并提出渐进式训练VLLM模型的具体步骤原创 2024-10-03 21:53:46 · 1771 阅读 · 0 评论 -
CLIP论文中关键信息记录
由于clip论文过长,一直无法完整的阅读该论文,故而抽取论文中的关键信息进行记录。主要记录clip是如何实现的的(提出背景、训练数据、设计模式、训练超参数、prompt的作用),clip的能力(clip的模型版本、clip的泛化能力)。原创 2024-09-16 23:05:10 · 1716 阅读 · 0 评论 -
论文阅读: SigLit | SigLip |Sigmoid Loss for Language Image Pre-Training
论文地址:https://arxiv.org/pdf/2303.15343项目地址:https://github.com/google-research/big_vision发表时间:2023年3月27日我们提出了一种用于语言图像预训练(SigLIP)的简单成对 Sigmoid 损失。与使用 softmax 归一化的标准对比学习不同,sigmoid 损失仅对图像-文本对进行操作,并且不需要对归一化的成对相似性进行全局视图。原创 2024-09-17 22:35:40 · 2411 阅读 · 0 评论 -
论文阅读:RAM++ | Open-Set Image Tagging with Multi-Grained Text Supervision
发表时间:2023年11月16论文地址:https://arxiv.org/pdf/2310.15200项目地址:https://github.com/xinyu1205/recognize-anythingRecognize Anything Plus Model(RAM++),这是一种有效利用多粒度文本监督的开放集图像标记模型。以前的方法(例如,CLIP)主要利用与图像配对的全局文本监督,导致在识别多个单独的语义标签方面的次优性能。相比之下,RAM++无缝地集成了单个标签监督(tag。原创 2024-06-16 22:06:07 · 1370 阅读 · 0 评论 -
论文简读 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
LORA是什么?LORA是一个解决大模型finetune的技术。现行的大模型(如GPT3,参数量175B)的训练微调成本比较高,一次训练需要几个月才能完成,这提高了nlp大模型的准入门槛。大模型finetune的目的是为了将通用领域的大模型能力迁移到专业领域(下游应用环境), 因为直接在专业领域训练nlp模型存在难以收敛的风险(nlp的专业领域应用需要通用领域的词汇嵌入支持`提供初级词汇理解能力`,在通用领域的大数据规模下训练后可以增强词汇嵌入能力,再进行专业领域训练。通俗来说,LORA技术就像一个化原创 2023-09-08 21:32:57 · 1563 阅读 · 1 评论