自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(371)
  • 资源 (4)
  • 收藏
  • 关注

原创 零基础学Triton(2) GPU基础

大模型时代离不开GPU,那GPU到底是怎么样的呢?这篇文章简单讲讲。GPU单卡算力在过去10年增长1000倍,相当于每年(12个月)性能翻倍,这可比“摩尔定律”(每18个月到24个月CPU性能翻倍)猛地多,这就是“黄氏定律”!为啥GPU算力涨得这么猛?和GPU的架构设计有关系。

2025-07-30 09:40:21 641

原创 零基础学Triton(1) Triton还需要学习吗?

是OpenAI开发的一种开源语言和编译器,旨在简化GPU编程。它可以看做是构建在CUDA之上的一个抽象层,允许开发者使用类似Python的语法来编写高性能算子,而无需直接处理CUDA的底层复杂性。尽管在极致优化的情况下,Triton性能不及CUDA。但在通用性和易用性上,碾压CUDA。在通用性上,Triton支持除CUDA外的其他后端,例如AMD的ROCm,CPU后端等。在易用性上,利用python语法、支持自动化内存合并、线程调度、并行策略等功能,确保开发者重点关注算法本身。

2025-07-25 09:55:30 580

原创 MinerU:文档解析神器,实地测评

MinerU是一款由上海人工智能实验室 OpenDataLab 团队开源的一款高质量数据提取工具,评测其在多栏表格、代码、公式、多栏PDF、印刷体方面的识别能力。

2025-07-23 10:29:21 955

原创 斯坦福公开课引用“优快云博客”

斯坦福大学 2025 年春季的CS336课程「从头开始创造语言模型(Language Models from Scratch)已全部公开。在lecture 5. GPUs课程中,引用了csdn的博客内容。优快云平台有高质量博客啊!可以去优快云围观一波。

2025-07-16 09:06:45 131

原创 多模态大语言模型arxiv论文略读(157)

因此,研究团队提出了一种新的无词汇表SLT框架——多模态手语翻译(MMSLT),利用现成的多模态大语言模型(MLLMs)来生成手语组件的详细文本描述,并通过多模态语言预训练模块将这些描述与手语视频特征融合,对齐到口语句子空间。为了解决这一问题,研究团队提出了一种基于用户视角的指令调优方法(Egocentric Instruction Tuning),旨在通过一致的标注标准,使MLLMs的方向理解能力与用户的视角对齐,从而提高模型在实际应用中的表现。这导致了在回答涉及图像细节的问题时,MLLMs的表现不佳。

2025-07-15 08:44:09 834

原创 Dolphin文档解析模型?实测看看,幻觉太严重

该模型的幻觉还是比较严重的,整体不是很可用,还需要进一步迭代更新在多栏表格方面,结构、文字识别得都一般在代码方面,整体效果能接受,但会收到python的注释符号的影响在公式方面,会生成不存在的latex符号在多栏识别方面,能按顺序输出不同栏目在印刷体识别方面,效果整体还是不错的以上评测是在笔者挑选的数据上进行的,以上数据仅供参考。若希望将Dolphin用于自身场景,建议用自身场景数据进行实测对比。

2025-07-15 08:38:16 580 2

原创 公开、免费、优质的大模型学习资料

该开源仓库包含了开发、预训练和微调一个类似GPT的LLM(大语言模型)的代码,是《Build a Large Language Model (From Scratch)》这本书的官方代码仓库。苏建林大佬是ROPE的作者,ROPE可以被认为是大模型长文本技术的基石性工作,也是少有的由国人提出的、被普遍使用的大模型底层技术。中文链接:https://github.com/MLNLP-World/LLMs-from-scratch-CN。链接:https://github.com/skyzh/tiny-llm。

2025-07-13 08:54:51 1131

原创 多模态大语言模型arxiv论文略读(156)

➡️ 方法简介:研究团队基于不同的预训练开源多模态大语言模型(MLLMs),如Qwen-VL、InternVL、Deepseek-VL,使用监督微调(SFT)、检索增强生成(RAG)和基于人类反馈的强化学习(RLHF)技术,将跨域知识注入MLLMs,从而构建多个小麦育种多模态大语言模型(WBLMs)。同时,小麦育种涉及生物学、遗传学、气象学和土壤科学等多个学科的交叉,专业人员在进行育种工作时需要跨越多个领域的文献和数据,甚至需要编写代码来访问数据,这极大地限制了他们的工作效率。

2025-07-10 18:12:14 866

原创 多模态大语言模型arxiv论文略读(155)

➡️ 实验设计:研究团队构建了一个新的CVIT基准测试,不仅评估模型在标准任务上的准确性和遗忘情况,还评估了模型在未见过的任务上的泛化能力和处理多样化指令的能力。特别是在视觉-语言任务中,缺乏高质量的长链推理数据和优化的训练管道,限制了模型在复杂多模态任务中的推理能力。➡️ 研究动机:为了克服现有MLLMs中的“弱视”问题,研究团队提出了一种新的框架——Panther,该框架通过将用户指令转化为视觉提示,指导视觉编码器提取与指令相关的视觉特征,从而提高模型对用户指令的响应能力和对目标对象的精确定位能力。

2025-07-10 18:09:32 838

原创 多模态大语言模型arxiv论文略读(154)

➡️ 研究动机:为了提高MLLMs在自动驾驶VQA任务中的表现,研究团队提出了“提示的暗示”(Hints of Prompt, HoP)框架,通过引入三种增强提示(Affinity hint、Semantic hint、Question hint)来丰富视觉表示,增强模型对复杂驾驶场景的理解和响应能力。➡️ 研究动机:为了提高多模态网络代理在未见过的网站和领域中的适应能力,研究团队提出了一种新的框架——AdaptAgent,该框架通过少量的人类演示(1-2个示例)来快速适应新的环境。

2025-07-09 08:39:52 834

原创 多模态大语言模型arxiv论文略读(153)

当前的方法,如链式思维(Chain of Thought, CoT)推理,虽然增强了大型语言模型(LLMs)的推理能力,但在多模态场景中应用时,由于视觉输入的误导,幻觉问题变得更加严重。为了克服这一问题,研究团队提出了一种新的方法——视觉推理链(Visual Inference Chain, VIC),该方法在引入视觉输入之前,先通过文本上下文构建推理链,从而减少跨模态偏差,提高多模态推理的准确性。实验设计了不同的配置,包括不同的LoRA秩和激活方法,以全面评估模型的性能和适应性。

2025-07-09 08:37:52 507

原创 多模态大语言模型arxiv论文略读(152)

➡️ 研究动机:为了评估生成模型和MLLMs在情感分析方面的能力,研究团队引入了MEMO-Bench,这是一个全面的基准测试,包含7,145张由12个文本到图像(T2I)模型生成的肖像图像,每张图像代表六种不同情感之一。当前方法虽然尝试利用多模态大语言模型(MLLMs)的长序列理解和推理能力,但缺乏全面的数据支持,这些方法往往改变了MLLMs的核心特征传输路径,破坏了模型的内在知识,限制了其在RSICC中的潜力。实验结果表明,现有的T2I模型在生成积极情感方面表现较好,但在生成消极情感方面存在局限。

2025-07-08 10:10:16 664

原创 MonkeyOCR?实测PDF解析效果

PDF解析有两种方法,基于pipeline的方法和基于端到端的方法。基于pipeline的方法将PDF解析任务拆解为多个小任务,针对性得优化每个小任务,但容易受到错误累积的影响。比如常拆解的任务流程:布局识别、区域分割、文本识别、表格识别、公式识别、结构重组,每个任务使用独立模型,这种设计哲学累积早期阶段的错误,后面任务的的模型再强也无法弥补。基于端到端的方法直接从PDF文档推断出markdown解析结果,缺乏中间过程,不具备可解释性;一般采用多模态大模型实现,需要的计算资源较大。

2025-07-08 08:30:00 1323

原创 多模态大语言模型arxiv论文略读(151)

然而,MLLM在特定下游任务上的表现通常较差,因为小规模的微调数据集无法覆盖预训练数据集的分布和任务范围,导致模型在微调过程中可能出现灾难性遗忘,即忘记预训练阶段学到的知识。➡️ 方法简介:研究团队提出了一种名为SPIDER的方法,通过测量预训练和微调分布中的参数重要性,选择性地更新对下游任务重要的参数,同时保留对泛化能力重要的参数。为了克服移动设备上的部署挑战,研究团队提出了BlueLM-V-3B,通过算法和系统协同设计,优化了模型在移动设备上的性能和资源效率。然而,这种方法可能导致模型失去泛化能力。

2025-07-07 09:20:17 980

原创 多模态大语言模型arxiv论文略读(150)

具体来说,SFT依赖于教师强制(teacher forcing),即模型基于先前的真实标记进行预测,而在推理阶段,模型必须基于自身先前的输出进行预测,这导致了训练和推理之间的分布偏移。实验结果表明,MPO方法显著提升了模型的多模态推理能力,尤其是在MathVista基准上,InternVL2-8B-MPO模型的准确率达到了67.0%,比基线模型InternVL2-8B提高了8.7个百分点,性能接近10倍大的InternVL2-76B模型。实验结果表明,HDPO在减少幻觉方面表现出色,超越了大多数现有方法。

2025-07-07 09:13:20 915

原创 多模态大语言模型arxiv论文略读(149)

最终,训练好的Spider模型生成了一个新的伪X-to-Xs数据集,这是首个X-to-Xs多模态数据集,为未来的多模态生成任务提供了丰富的数据支持。➡️ 研究动机:为了克服WTAL方法中的不完整定位和过度定位问题,研究团队提出了一种新的学习范式MLLM4WTAL,该范式利用多模态大语言模型(MLLMs)来提供时间动作的关键语义和完整的语义先验,以增强传统的WTAL方法。此外,研究团队还进行了详细的模型分析,包括消融实验和案例研究,以阐明模型的内部机制和实际应用中的表现。

2025-07-06 11:45:47 937

原创 多模态大语言模型arxiv论文略读(148)

然而,支持数据的使用存在固有的局限性,如依赖于支持图像和关键点注释,导致模型性能受支持数据质量的影响。➡️ 方法简介:研究团队提出了一种新的方法——多模态知识一致性微调(Multimodal Knowledge Consistency Fine-tuning),该方法通过三个阶段的微调任务来提高模型在认知和感知任务之间的一致性。为了克服这一挑战,研究团队提出了一种新的方法——Zer0-Jack,该方法利用零阶优化技术直接生成恶意图像输入,以攻击黑盒MLLMs,显著降低了内存使用量,并提高了攻击成功率。

2025-07-02 09:21:37 702

原创 算法之美 | 几行代码勾勒出生命体

这个生物完全由代码生成,它在幽暗的世界里,摇曳着尾鳍、腹鳍,来回游啊游,但永远也逃离不了。实现这个赛博生物的公式来自于X上的大佬@yuruyurau用p5.js实现了各式各样的赛博生物,感兴趣的可以去看看。基于大佬分享的代码公式,笔者也用python复现了几个赛博生物是不是有点像《小鲤鱼历险记》里头的小美美。

2025-07-02 09:16:59 1038

原创 多模态大语言模型arxiv论文略读(147)

➡️ 方法简介:研究团队首先概述了MLLMs的架构和视觉-文本融合机制,分析了视觉处理中的漏洞,包括OCR组件的利用、跨模态训练的弱点以及集成点作为攻击表面。本文旨在全面回顾视觉路径在MLLMs中的利用方式,分析不同类型的视觉攻击,评估其对模型性能和安全的影响,并探讨当前的防御机制及其局限性,以支持更安全可靠的多模态AI系统的开发。实验设计了不同的因素(如视频帧的选择、文本元数据的使用)和不同类型的伤害类别(如信息伤害、仇恨与骚扰伤害等),以全面评估GPT-4-Turbo在多模态和多标签分类任务中的表现。

2025-07-01 08:47:05 865

原创 多模态大语言模型arxiv论文略读(146)

实验结果表明,即使在通用基准测试中表现良好的模型,在MME-Finance上的表现也不尽如人意,尤其是在与金融相关的任务上,如K线图和技术指标图的处理。MME-Finance旨在评估多模态模型在金融领域的感知、推理和认知能力,通过构建反映用户实际使用需求的图表、根据金融领域查询偏好创建问题,并由具有10年以上金融行业经验的专家进行标注,确保了基准测试的质量和专业性。实验结果表明,无论是在小型、中型还是大型模型中,集成该框架后,模型的性能都有显著提升,特别是在需要外部常识知识的VQA任务中。

2025-07-01 08:44:46 1018

原创 多模态大语言模型arxiv论文略读(145)

视觉编码器从查询图像和支持图像中提取特征;研究团队设计了KptLLM,一个统一的多模态模型,采用“识别-检测”策略,有效解决了语义关键点理解的三个任务:关键点语义理解、基于视觉提示的关键点检测和基于文本提示的关键点检测。然而,现有的模型在关键点的语义理解方面仍显不足,主要依赖于视觉模式的直接学习,而忽视了关键点的语义理解,导致提示的误读和预测的不准确。➡️ 研究动机:现有的VL跟踪器在主流基准测试中表现不佳,主要因为它们依赖于人工注释的文本,这些文本通常包含模糊的语言描述,并且忽视了文本中嵌入的语义信息。

2025-06-30 08:54:48 823

原创 多模态大语言模型arxiv论文略读(144)

实验评估了LARP在不同分词数量配置下的生成质量,并与现有的视频生成模型进行了比较。➡️ 研究动机:为了克服现有视频分词方法的局限性,研究团队提出了LARP(Learned AutoRegressive Prior),这是一种新的视频分词器,旨在通过引入全局分词方案和学习的AR生成先验模型,提高视频生成的质量和效率。然而,现有的MLLMs在图像编码过程中忽略了文本提示的要求,导致提取的视觉特征可能遗漏提示中指定的信息,同时包含大量与提示无关的噪声,影响了文本生成的质量和计算开销。

2025-06-30 08:51:56 629

原创 多模态大语言模型arxiv论文略读(143)

➡️ 问题背景:生成式大型语言模型(LLMs)展示了令人印象深刻的能力,通过整合预训练的视觉模型,可以进一步增强这些模型的能力,形成多模态大型语言模型(MLLMs)。然而,现有的方法在扩展到新模态时,依赖于大量的模态特定预训练和联合模态调优,导致显著的计算负担。这限制了MLLMs在新模态上的持续扩展能力。➡️ 研究动机:为了克服现有方法在扩展到新模态时的计算负担,研究团队提出了一种灵活且可扩展的框架PathWeave,该框架通过模态路径切换和扩展能力,使MLLMs能够持续进化,实现X-模态推理。

2025-06-29 20:55:23 631

原创 【PP-StructureV3】名列前茅的开源PDF解析算法?实测看看

PP-StructureV3

2025-06-29 17:47:41 1203

原创 多模态大语言模型arxiv论文略读(142)

➡️ 研究动机:为了提高MLLMs在图表理解任务中的表现,研究团队提出了一种新的数据合成方法——Code-as-Intermediary Translation (CIT),通过代码作为中介,将图表图像转换为文本表示,从而利用大型语言模型(LLMs)的能力生成高质量的图表相关问题和答案。实验结果表明,TP-Eval能够显著提高模型在多种任务上的性能,揭示了现有评估基准中提示设计的不足,并为未来的多模态模型评估提供了新的思路。然而,现有的多模态模型评估基准存在一个关键问题,即对提示(prompt)的敏感性。

2025-06-27 09:04:03 619

原创 多模态大语言模型arxiv论文略读(141)

此外,RAG方法有效减少了模型的幻觉问题,提高了生成内容的准确性。➡️ 研究动机:为了克服现有MLLMs的计算成本高和领域适应性差的问题,研究团队提出了一种轻量级的多模态模型Mini-InternVL,该模型在参数量大幅减少的情况下,仍能保持较高的性能。➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中展现了卓越的性能,但其庞大的模型规模和高昂的计算成本限制了在消费级GPU或边缘设备上的训练和部署,阻碍了其广泛应用。

2025-06-27 09:01:46 1281

原创 多模态大语言模型arxiv论文略读(140)

➡️ 问题背景:多模态大语言模型(Multimodal Large Language Model, MLLM)在视觉语言任务中展现出显著的能力,但现有的通用视觉语言模型(VLM)在医疗视觉问答(Med-VQA)任务中表现不佳,尤其是在处理细微的医学图像时。为了在保持高数据质量的同时最大化数据量,研究团队提出了自适应图像-文本质量增强器(AITQE),旨在动态评估和增强图像-文本对的质量,从而在不显著改变文本分布的情况下,最小化调整文本,以保留数据量并提高质量。

2025-06-26 08:53:27 1007

原创 多模态大语言模型arxiv论文略读(139)

➡️ 实验设计:研究团队在三个流行的MLLMs上应用了γ-MoD,并在9个基准数据集上进行了广泛的实验。实验结果表明,即使是性能最好的模型(如Claude-3.5 Sonnet、GPT-4o和Gemini-1.5 Pro)在POLYMATH上的得分也仅为41%、36%和27%左右,突显了这些模型在逻辑和视觉复杂问题上的挑战。➡️ 问题背景:当前的多模态基础模型在视觉-语言理解方面取得了显著进展,但多模态大语言模型(MLLMs)在视觉内容生成方面的能力仍面临挑战,尤其是在处理不同任务所需的多粒度特征时。

2025-06-26 08:52:24 1004

原创 多模态大语言模型arxiv论文略读(138)

尽管文本基础的LLMs缺乏直接的视觉输入,但它们能够有效地处理网页的文本表示,通过读取清理后的可访问性树(一种结构化和精炼的网页HTML和元数据表示),生成有意义的指令,这些指令能够捕捉页面上的内容和交互。(3)从抓取的网站中提取任务;➡️ 研究动机:为了评估MLLMs在多图像实例级任务中的能力,研究团队提出了一种新的视觉定位任务——多上下文视觉定位(Multi-Context Visual Grounding),并构建了一个新的基准数据集MC-Bench,以评估MLLMs在多图像场景中的视觉定位能力。

2025-06-25 08:50:17 985

原创 多模态大语言模型arxiv论文略读(137)

因此,研究团队设计了VidEgoThink,一个全面的以自我为中心的视频理解基准,旨在评估MLLMs在具身AI中的应用能力,特别是视频问答、层次规划、视觉定位和奖励建模四个关键任务。UI定位模块负责识别目标UI元素的坐标;➡️ 问题背景:当前的图形用户界面(GUI)自动化任务中,单轮代理(Single-turn Agent)在执行用户指定的UI环境中的动作时,如点击图标或在文本框中输入文字,表现出了中等的准确性。然而,现有的基准测试主要关注感知能力,而忽视了认知能力的评估,尤其是在文本丰富的视觉场景中。

2025-06-25 08:48:16 551

原创 多模态大语言模型arxiv论文略读(136)

然而,现有的投影器(projector)在将视觉特征转换为语言模型的嵌入空间时,往往忽略了视觉特征的固有空间差异,导致模型在处理视觉任务时的效率和理解能力受限。实验设计了不同的因素(如数据集大小、字符间距)的变化,以及不同类型的输入信息(如医生的专业、患者的年龄和性别、医生最常开具的15种药物),以全面评估模型的性能。➡️ 研究动机:为了更有效地测量MLLMs的幻觉水平,研究团队提出了LongHalQA,这是一个无需大语言模型(LLM)的幻觉评估基准,包含6000个长且复杂的幻觉文本。

2025-06-24 08:59:57 836

原创 多模态大语言模型arxiv论文略读(135)

本研究探讨了多模态大型语言模型(MLLMs)在推理过程中的计算冗余,并提出了不同的方法来跳过计算,如跳过整个块、前馈网络(FFN)或自注意力(SA)层,以及并行化某些层,如FFN和SA层。该框架包括冻结的LLM、可训练的映射模块(C)和冻结的感知编码器(EM),用于处理不同模态的输入。➡️ 研究动机:为了提高AEB系统在开放场景中的适应性,研究团队提出了Dual-AEB系统,该系统结合了先进的多模态大语言模型(MLLM)以实现对驾驶环境的深入理解,并结合传统的基于规则的快速AEB模块以确保快速响应时间。

2025-06-24 08:57:50 904

原创 多模态大语言模型arxiv论文略读(134)

➡️ 研究动机:为了克服MLLMs在个性化对话中的局限,研究团队提出了个性化视觉指令调优(Personalized Visual Instruction Tuning, PVIT),旨在使MLLMs能够在无需额外训练的情况下,与任意个体进行个性化对话。为了克服这些局限,研究团队开发了TRANS4D,旨在通过多模态大型语言模型(MLLMs)进行物理感知的场景描述和有效的转换时间规划,以及通过几何感知的4D转换网络实现复杂的场景级4D转换。最后,通过令牌路由机制简化保留的令牌,去除内部冗余。

2025-06-23 15:28:41 704

原创 多模态大语言模型arxiv论文略读(133)

评估指标包括准确性、完成度和动作效率。实验设计了不同因素(如图像分辨率、压缩的token数量)的变化,以及不同类型的感知任务(如粗粒度感知、细粒度感知和推理任务),以全面评估连接器在不同条件下的表现。为了提高MLLMs的情境安全意识,研究团队还提出了多代理情境推理管道,通过将任务分解为不同的子任务,由不同的代理执行,以提高每个子任务的准确性。通过统一的分类标准,将来自MMBench、MME和SEED-Bench三个基准测试的子任务分为粗粒度感知、细粒度感知和推理任务,并评估了不同连接器在这些任务中的性能。

2025-06-23 15:26:27 785

原创 多模态大语言模型arxiv论文略读(132)

研究团队通过评估MLLMs在不同伪造特征上的区分能力,旨在揭示这些模型的“优势”和“劣势”,并提出一种新的框架来增强MLLMs的检测和解释能力。➡️ 研究动机:为了改善Mamba模型在多模态任务中的视觉特征提取能力,研究团队提出了EMMA(Empowering Multi-modal Mamba with Structural and Hierarchical Alignment),通过结构化和层次化对齐来增强视觉特征的提取,从而提高视觉和文本模态之间的对齐质量。

2025-06-22 11:29:29 1330

原创 OmniDocBench:一键评测PDF解析算法

OmniDocBench应该是目前类型最丰富、标注粒度最详细的PDF解析评测数据集了,对于评估PDF解析算法,意义重大。最新的PP-StructureV3简介 - PaddleOCR 文档便给出了在OmniDocBench上的评测对比,可以详细看看。但是,某个算法想利用该benchmark来评测结果时,需要注意数据泄露的风险,尽量避免用该benchmark里的数据进行训练。

2025-06-22 11:14:39 1484

原创 多模态大语言模型arxiv论文略读(131)

然而,现有的数学基准测试主要集中在评估MLLMs的问题解决能力,而忽略了更复杂的场景,如错误检测,这在教育场景中尤为重要。➡️ 研究动机:为了克服这一限制,研究团队提出了一种新的方法——MLLM As ReTriever (MART),通过利用交互数据来微调MLLM检索器,使其能够全面考虑轨迹的有效性,并优先考虑对未见过的任务有用的轨迹。➡️ 方法简介:研究团队构建了一个包含2,500个高质量多模态K-12数学问题的数据集,这些问题来源于教育机构的真实学生互动数据,并经过严格的标注和丰富的元数据支持。

2025-06-20 08:52:39 529

原创 多模态大语言模型arxiv论文略读(130)

然而,这些模型主要依赖于自回归学习目标,这导致了视觉和语言模态之间的弱对齐,使得模型高度依赖于大规模的预训练数据集,这在医疗领域尤为困难,因为高质量的指令跟随数据集的构建既昂贵又耗时。➡️ 研究动机:现有的对抗攻击方法虽然能够生成视觉上逼真的对抗样本,但往往导致显著的语义变化,降低了攻击的隐蔽性。为了克服这些限制,研究团队提出了一种新的框架——语义一致的无限制对抗攻击(SCA),该框架利用有效的逆向方法和强大的多模态大语言模型(MLLM)生成对抗样本,这些样本在保持图像整体语义的同时,具有最小的语义失真。

2025-06-20 08:50:56 585

原创 多模态大语言模型arxiv论文略读(129)

此外,LEOPARD引入了一个自适应高分辨率多图像编码模块,该模块根据输入图像的原始宽高比和分辨率,动态优化视觉序列长度的分配,并通过像素洗牌技术无损压缩长视觉特征序列,以适应模型的最大序列长度限制。研究还讨论了模型的可解释性、公平性和伦理问题,以及未来研究的方向,如数据集开发、模态对齐方法的改进和伦理指南的建立。研究团队通过构建一个详细的分类树和收集训练集,旨在全面评估这些模型在ASCII艺术识别任务上的表现,揭示模型在处理模态无关视觉信息时的局限性,并探索通过监督微调等方法提升模型性能的可能性。

2025-06-19 08:54:25 935

原创 多模态大语言模型arxiv论文略读(128)

➡️ 研究动机:为了克服这些挑战,研究团队提出了一种新的解决方案LECCR(Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval),该方案利用多模态大语言模型(MLLM)生成详细的视觉描述,并将其聚合为多视图语义槽,以增强视觉特征的语义信息,从而缩小模态间的语义差距。➡️ 研究动机:为了提升MLLMs在处理文本丰富的图像理解、细粒度的视觉指代和定位、以及多图像推理等方面的能力,研究团队开发了MM1.5,这是一个新的MLLM家族。

2025-06-19 08:52:36 640

Numerical Analysis-Burden Faires 9th 数值分析

Numerical Analysis-Burden Faires 9th 数值分析(第九版)

2017-07-10

贝塞尔曲线简单应用(画T)(附有关键代码)

贝塞尔曲线简单应用(画T)(附有关键代码和exe文件)

2017-07-10

博弈论课件

ACM博弈论相关课件,涉及巴什博奕,威佐夫博弈,尼姆博弈。课件生动形象

2017-09-12

算法导论(第三版)基本完整中文版答案

算法导论(第三版)基本完整中文版答案

2017-07-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除