- 博客(297)
- 收藏
- 关注
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.08.10-2025.08.15
视觉-语言-动作(VLA)模型在每个时间步独立处理视觉输入,从而丢弃了机器人操作任务中固有的时间信息。这种逐帧处理方式使模型容易受到视觉噪声的影响,同时忽略了操作序列中连续帧之间的显著一致性。我们提出了时间标记融合(TTF),这是一种无需训练的方法,通过智能整合历史和当前视觉表示来提高VLA的推理质量。我们的方法结合了双维度检测,包括高效的灰度像素差分分析和基于注意力的语义相关性评估,通过硬融合策略和关键帧锚定实现选择性的时间标记融合,以防止错误累积。
2025-09-26 10:30:00
1170
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.07.25-2025.07.31
标题:什么是“抽象推理者”?重新审视关于大型语言模型的实验和论点摘要最近的研究认为,大型语言模型(LLMs)并不是“抽象推理者”,并以它们在各种具有挑战性的任务上的零样本性能较差作为证据。我们重新审视这些实验,以对这一说法增加更多细节。首先,我们表明,尽管LLMs在零样本设置中确实表现不佳,但对输入编码的一小部分参数进行微调,就可以实现接近完美的性能。然而,我们还表明,这种微调并不一定能在不同数据集之间迁移。
2025-09-26 10:30:00
720
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.08.05-2025.08.10
视频中的视觉-语言对齐必须解决语言的复杂性、不断变化的交互实体、它们的动作链以及语言和视觉之间的语义差距。这项工作介绍了Planner-Refiner,一个克服这些挑战的框架。Planner-Refiner通过迭代地细化视觉元素的时空表示来弥合语义差距,直到语义差距最小。一个Planner模块通过将复杂的语言提示分解为短句链来安排语言指导。Refiner处理每个短句,即名词短语和动词短语对,以指导视觉标记在空间然后时间上的自注意力,实现高效的单步细化。
2025-09-25 10:30:00
670
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.07.20-2025.07.25
由于序列长度的计算量呈二次增长,将大型语言模型(LLMs)部署在边缘设备上仍然具有挑战性。现有的动态注意力剪枝研究是为具有大规模并行计算能力的硬件(如GPU或TPU)设计的,并旨在处理长上下文长度(例如64K),这使得它们不适合边缘场景。我们提出了DeltaLLM,这是一个无需训练的框架,利用注意力模式中的时间稀疏性,以在资源受限的边缘设备上实现预填充和解码阶段的高效LLM推理。
2025-09-25 10:30:00
800
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.07.15-2025.07.20
标题:SemCSE:利用 LLM 生成的科学文摘摘要进行语义对比句嵌入摘要我们介绍的 SemCSE 是一种用于学习科学文本语义嵌入的无监督方法。在文本嵌入对比学习的最新进展基础上,我们的方法利用 LLM 生成的科学文摘摘要来训练一个模型,将语义相关的摘要在嵌入空间中靠得更近。由此产生的目标可确保模型捕捉到文本的真实语义内容,而传统的基于引用的方法并不一定能反映语义相似性。
2025-09-24 10:30:00
1132
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.08.01-2025.08.05
文本到图像(T2I)生成在扩散模型方面取得了显著进展,但在处理复杂指令、确保细粒度内容控制和保持深层语义一致性方面仍然存在挑战。现有的T2I模型在准确的文本渲染、精确的姿态生成或复杂的构图一致性等任务上常常遇到困难。同时,视觉-语言模型(LVLM)在跨模态理解和指令遵循方面表现出强大的能力。我们提出了LumiGen,这是一种新颖的LVLM增强型迭代框架,旨在通过闭环、LVLM驱动的反馈机制提升T2I模型的性能,特别是在需要细粒度控制的领域。
2025-09-24 10:30:00
699
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.07.10-2025.07.15
本文介绍了 Opus 提示意图框架,该框架旨在通过指令调整的大型语言模型(LLM)改进复杂的工作流生成。我们提出了用户查询和工作流生成之间的中间意图捕捉层,实现了 Opus 工作流意图框架,该框架包括从用户查询中提取工作流信号,将其解释为结构化的工作流意图对象,并根据这些意图生成工作流。我们的研究结果表明,这一层能让 LLM 生成有逻辑、有意义的输出,并随着查询复杂度的增加而可靠地扩展。
2025-09-23 10:30:00
849
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.07.25-2025.07.31
视觉语言模型(VLMs)在有效协调多种注意力机制以进行跨模态嵌入学习方面面临挑战,导致注意力不匹配和性能不佳。我们提出了连续跨层区域对齐(CCRA),它引入了逐层-逐块交叉注意力(LPWCA),通过联合加权块和层级嵌入来捕捉细粒度的区域-语义相关性,并提出了渐进式注意力整合(PAI),该方法按顺序系统地协调LPWCA、层级和块级注意力机制。这种渐进式设计确保了从语义到区域层面的一致性,同时防止注意力漂移并最大化个体注意力的优势。
2025-09-23 10:30:00
708
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.07.05-2025.07.10
通过对学生成绩和项目之间的学习关系进行精细预测,机器学习被认为是改进教育评估的一种方法。许多机器学习方法面临的一个挑战是如何纳入新项目,因为这些方法在很大程度上依赖于历史数据。我们通过扩展用于教育评估的 LENS 部分变分自动编码器来开发 Text-LENS,以利用项目文本嵌入,并探索其对预测性能和泛化到以前未见过的项目的影响。我们考察了两个数据集的性能:Eedi 是一个包含项目内容的公开数据集,LLM-Sim 是一个由 LLM 生成测试项目的新数据集。
2025-09-22 10:30:00
1808
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.07.20-2025.07.25
近年来,社交媒体用户在短视频平台上花费了大量时间。因此,其他领域的传统平台(如电子商务)开始引入短视频内容,以吸引用户并增加他们在平台上的停留时间。这些体验的成功不仅在于内容本身,还在于一种独特的用户界面(UI)创新:平台不是向用户提供一个可点击的选择列表,而是主动为用户推荐一个接一个的视频内容。这给推荐系统带来了新的挑战,尤其是在推出新的视频体验时。除了有限的交互数据外,沉浸式信息流体验由于UI和观看时长的偏差,在优化观看时间时会引入更强的位置偏差,因为模型往往更倾向于较短的视频。
2025-09-22 10:30:00
707
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.07.15-2025.07.20
经过预训练的视觉语言模型(VLM)(如 CLIP)已显示出卓越的泛化能力。然而,如何将这些大型模型适用于下游任务,同时保持其泛化能力仍然是一项挑战。尽管及时学习方法已显示出前景,但它们存在两个限制泛化的基本瓶颈:(a) 模式隔离和 (b) 层次语义衰减。为了解决这些局限性,我们提出了 HiCroPL,这是一种分层跨模态提示学习框架,可在文本和视觉模态之间建立双向知识流,使它们能够相互完善语义。HiCroPL 利用文本和视觉的互补优势来引导知识流。
2025-09-18 11:30:00
733
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.07.01-2025.07.05
大型语言模型(LLMs)在各种任务中都表现出了令人印象深刻的生成能力,但仍然容易出现幻觉,即自信地生成但事实上不正确的输出。我们介绍了一种无参考、标记级幻觉检测框架,该框架利用了多代随机生成中标记对数概率的差异。与之前需要地面实况参考或句子级验证的方法不同,我们的方法与模型无关,可解释,适合实时或事后分析。我们在 SQuAD v2 数据集中对无法回答的问题提示进行了评估,并在三个不同规模的自回归模型中进行了基准测试:GPT-Neo 125M、Falcon 1B 和 Mistral 7B。
2025-09-18 10:30:00
1057
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.07.10-2025.07.15
户外广告仍然是现代营销的重要媒介,但在现实条件下准确验证广告牌文字的可视性仍然具有挑战性。传统的光学字符识别(OCR)管道在裁剪文字识别方面表现出色,但在复杂的户外场景、不同的字体和天气引起的视觉噪声方面往往难以胜任。最近,多模态视觉语言模型(VLM)作为一种有前途的替代方案出现了,它无需明确的检测步骤,就能提供端到端的场景理解。
2025-09-17 10:30:00
1591
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.06.25-2025.06.30
标准的分类模型通常直接将输入映射到标签,而没有明确的推理,这可能会限制其性能、鲁棒性和可解释性。本文介绍了一种新颖的两阶段方法,利用大语言模型(LLM)生成的推理来增强文本分类。在第一阶段,我们在通用推理数据集(syvai/reasoning-gen)上对 Llama-3.2-1B-Instruct 模型(以下简称 Llama-R-Gen)进行微调,以生成给定问题及其答案的文本推理(R)。在第二阶段,经过一般训练的 Llama-R-Gen 被离线用于为下游生成模型创建增强训练数据集。
2025-09-17 10:30:00
1179
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.07.05-2025.07.10
我们介绍了一个全栈框架,该框架利用强化学习,将视觉语言模型(VLM)中的推理扩展至长视频。我们通过整合三个关键组件来应对长视频推理的独特挑战:(1) 大型数据集 LongVideo-Reason,包含 52K 个长视频 QA 对和高质量推理注释,涉及体育、游戏和 vlogs 等不同领域;(2) 两阶段训练管道,通过思维链监督微调(CoT-SFT)和强化学习(RL)扩展 VLM;
2025-09-16 10:30:00
782
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.06.20-2025.06.25
财务文件(如 10-K、10-Q 和投资者简报)长达数百页,并结合了多种模式,包括密集的叙述性文本、结构化表格和复杂的数字。回答此类内容的问题往往需要跨模态的联合推理,由于标记限制、布局损失和跨模态上下文碎片,这给传统的大型语言模型(LLM)和检索增强生成(RAG)管道带来了压力。我们介绍了 MultiFinRAG,这是一个专为金融质量保证而设计的检索增强生成框架。
2025-09-16 10:30:00
1236
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.07.01-2025.07.05
本文介绍了分层自监督 LVLM(Hi-SSLVLM),这是一种新颖的生成模型,旨在显著推进文本到图像的合成,尤其是针对复杂且具有构图挑战性的提示。传统方法通常需要花费高昂的成本来精心策划成对的图像-文本数据集,并且难以精确控制细粒度的视觉属性和错综复杂的空间关系。我们的 Hi-SSLVLM 通过独特的两阶段自监督学习策略解决了这些局限性。
2025-09-15 10:30:00
803
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.06.15-2025.06.20
供应链运营会产生大量的运营数据;然而,系统使用实践、故障排除工作流程和解决技术等关键知识往往被埋没在支持单、电子邮件和聊天记录等非结构化通信中。虽然 RAG 系统旨在利用此类通信作为知识库,但其有效性却受到原始数据挑战的限制:支持单通常具有噪声大、不一致和不完整等特点,使得直接检索效果不佳。与专注于运行时优化的现有 RAG 方法不同,我们引入了一种新颖的离线优先方法,将这些通信转化为结构化知识库。
2025-09-15 10:30:00
805
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.06.25-2025.06.30
多模态大型语言模型(MLLM)的快速发展为视觉-语言-行动(VLA)范式铺平了道路,这种范式将视觉感知、自然语言理解和控制整合在一个策略中。自动驾驶领域的研究人员正积极将这些方法应用到车辆领域。这些模型有望使自动驾驶汽车能够解释高级指令、推理复杂的交通场景并做出自己的决定。然而,相关文献仍然支离破碎,而且还在迅速扩展。本调查报告首次对自动驾驶 VLA(VLA4AD)进行了全面概述。
2025-09-12 10:30:00
1023
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.06.10-2025.06.15
在这项工作中,我们的重点是提高语言模型对资产维护的理解能力,以指导工程师做出决策并最大限度地减少资产停机时间。给定一组用自然语言表达的工业 4.0 领域的任务,每个任务都与特定资产相关的查询有关,我们希望推荐相关的项目,并推广到类似资产的查询中。一项任务可能涉及在查询资产故障模式时识别相关传感器。我们的方法首先是收集经过专家审核的定性知识库,构建九个特定资产任务数据集。为了创建更符合上下文的嵌入模型,我们使用大型语言模型(LLM)对输入任务进行扩充,对查询中涉及的实体进行简明描述。
2025-09-12 10:30:00
895
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.06.20-2025.06.25
超分辨率(SR)是一个难以解决的逆问题,有许多与给定低分辨率图像一致的可行解决方案。一方面,回归 SR 模型旨在平衡保真度和感知质量,以产生单一的解决方案,但这种权衡往往会带来人工痕迹,在识别数字或字母等信息关键应用中造成模糊。另一方面,扩散模型会生成多种 SR 图像,但从这些图像中选择最可信的解决方案仍然是一个挑战。本文通过利用视觉语言模型(VLM)的语义推理能力,介绍了一种稳健的自动框架,用于从扩散生成的集合中识别最值得信赖的 SR 样本。
2025-09-11 10:30:00
2118
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.06.05-2025.06.10
大语言模型(LLM)反学习已成为机器学习中的一个重要课题,其目的是消除特定训练数据或知识的影响,而无需从头开始重新训练模型。目前已提出了多种技术,包括梯度上升(Gradient Ascent)、模型编辑和重新定向隐藏表征。虽然现有的调查通常根据技术特点对这些方法进行分类,但这种分类往往忽略了一个更基本的维度:解除学习的根本意图–是要真正消除内部知识,还是仅仅抑制其行为影响。在这篇 SoK 论文中,我们基于这种以意图为导向的观点提出了一种新的分类法。在这一分类法的基础上,我们做出了三项重要贡献。
2025-09-11 10:30:00
1015
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.06.15-2025.06.20
医学视觉语言模型(VLM)已展现出前所未有的传输能力,并被越来越多地用于数据效率高的图像分类。尽管 VLM 越来越受欢迎,但其可靠性方面的问题在很大程度上仍未得到探索。这项研究探索了分裂保形预测(SCP)框架,以便在基于小型标注校准集传输此类模型时提供可信度保证。尽管 VLMs 具有潜力,但其预训练的通用性可能会对特定任务的共形集预测属性产生负面影响。
2025-09-10 10:30:00
777
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.06.01-2025.06.05
大型语言模型在特定领域任务中的表现需要微调,而微调的计算成本高昂,技术难度大。软提示是一种很有前途的方法,它通过学习一小部分参数集使预先训练好的模型适应下游任务。我们提出了一种具有自我关注机制(ID-SPAM)的新型输入相关软提示技术,它能根据输入令牌生成软提示,并以不同的重要性关注不同的令牌。我们的方法简单高效,可训练参数数量少。我们展示了所提出的方法与各种任务中的先进技术相比所具有的优点,并显示了改进的零镜头域转移能力。
2025-09-10 10:30:00
902
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.06.05-2025.06.10
尽管最近在大型模型推理能力方面取得了巨大进步,但视觉语言模型(VLM)在详细的视觉推理方面仍然举步维艰,尤其是在计算资源有限的情况下。为了应对这一挑战,我们从针对 VLM 的 Deepseek-r1 等方法中汲取灵感,利用组相对策略优化(GRPO)训练较小规模的模型,以便使用缩放等外部工具。通过结合 GRPO 学习、简单的奖励结构、简化的工具调用界面、为工具调用结果分配额外标记,以及过度体现视觉困难示例的训练数据组合,我们获得了最大的收益。
2025-09-09 10:30:00
992
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.05.25-2025.05.31-2
虽然预训练的多模态表征(如 CLIP)已显示出令人印象深刻的能力,但它们在合成方面表现出明显的弱点,导致了反直觉的判断。我们引入了多模态对抗组合性(MAC),这是一种利用大型语言模型(LLM)生成欺骗性文本样本的基准,可跨不同模态利用这些漏洞,并通过样本攻击成功率和基于熵的分组多样性对其进行评估。为了改进零射击方法,我们提出了一种利用拒绝采样微调和促进多样性过滤的自我训练方法,从而提高攻击成功率和样本多样性。
2025-09-09 10:30:00
961
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.06.01-2025.06.05
最近的图像分割模型在将图像分割为高质量的视觉实体掩码方面取得了进展,但它们无法为基于语言和视觉的复杂查询提供全面的语义理解。这种局限性降低了它们在需要用户友好交互的应用中的有效性,而这种交互是由视觉语言提示驱动的。为了弥补这一不足,我们引入了一项新任务–全模态指代表达分割(ORES)。在这项任务中,模型会根据仅由文本或文本加参考视觉实体指定的任意提示生成一组掩码。
2025-09-08 10:30:00
837
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.05.25-2025.05.31-1
知识图谱补全(KGC)旨在利用现有的三元组和文本信息预测知识图谱(KG)中缺失的三元组。最近,生成式大语言模型(LLM)越来越多地被用于图任务。然而,目前的方法通常以文本形式编码图上下文,无法充分发挥 LLM 在感知和推理图结构方面的潜力。为了解决这一局限性,我们提出了 DrKGC(用于知识图完成的动态子图检索增强 LLMs)。DrKGC 采用灵活的轻量级模型训练策略来学习知识图谱中的结构嵌入和逻辑规则。然后,它利用一种新颖的自下而上的图检索方法,在所学规则的指导下为每个查询提取一个子图。
2025-09-08 10:30:00
911
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.06.10-2025.06.15
在医学视觉问题解答(Med-VQA)中,实现准确回答有赖于三个关键步骤:精确感知医学影像数据、基于视觉输入和文本问题的逻辑推理,以及从推理过程中推导出连贯的答案。通用视觉语言模型(VLM)的最新进展表明,大规模强化学习(RL)可以显著提高推理能力和模型的整体性能。然而,它们在医疗领域的应用却受到两个基本挑战的阻碍:1) 感知理解和推理阶段之间的不一致,以及 2) 推理路径和答案生成之间的不一致。
2025-09-07 14:55:43
450
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.05.25-2025.05.31
在测试时间数据分布发生变化的情况下,提高视觉语言预训练模型(VLM)的泛化能力仍然是一项严峻的挑战。现有的测试时间适应(TTA)方法无法充分利用模型的内部知识,尤其是在动态适应复杂和分层的视觉语义信息方面。在本文中,我们提出了 “记忆注入式提示调整”(MINT)这一新颖的框架来解决这一问题。受人类联想记忆理论的启发,MINT 引入了记忆提示库(MPB),该库存储了可学习的键值提示对,可作为以前所见样本的记忆。在测试过程中,MPB 中的相关提示对会根据测试图像的分层视觉特征进行检索,从而动态组合出关联提示。
2025-09-07 14:54:09
1046
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.05.15-2025.05.20
随着图像生成器生成的图像越来越逼真,人们对潜在滥用的担忧与日俱增。有监督的检测依赖于大型、精心策划的数据集,很难在不同的生成器之间进行通用化。在这项工作中,我们研究了使用预先训练好的视觉语言模型(VLM)对人工智能生成的图像进行零镜头检测。虽然现成的视觉语言模型(VLM)会表现出一些特定任务的推理能力,而且思维链提示也能带来收益,但我们的研究表明,任务对齐提示能激发更集中的推理能力,并在不进行微调的情况下显著提高性能。
2025-09-05 10:30:00
725
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.05.20-2025.05.25
基于知识的视觉问题解答(KB-VQA)方法主要针对那些需要对图像中描述的明确内容之外的信息进行推理的任务。早期的方法依赖于显式知识库来提供这些辅助信息。最近的方法则利用大型语言模型(LLM)作为隐式知识源。虽然 KB-VQA 方法取得了可喜的成果,但其潜力仍然受到限制,因为所提供的辅助文本可能与问题上下文无关,也可能包含可能误导答案预测器的无关信息。
2025-09-05 10:30:00
1031
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.05.10-2025.05.15
语言先验是大型视觉语言模型(LVLMs)产生幻觉的主要原因,通常会导致语言上可信但视觉上不一致的文本。最近的研究将对比解码作为一种无需训练的解决方案进行了探索,但这些方法通常会从原始图像中构建负面语境,从而导致视觉信息丢失和分布失真。我们观察到语言先验源于 LLM 骨干,并且在不同图像之间保持一致,受此启发,我们提出了跨图像对比解码(CICD),这是一种简单而有效的免训练方法,它使用不同的图像来构建负面语境。
2025-09-04 10:30:00
1698
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.05.15-2025.05.20
本报告介绍了巴西葡萄牙语大型语言模型系列 Amadeus Verbo 的开发经验。为了处理不同的用例,Amadeus Verbo 包括基础调整、合并和指令调整模型,参数大小分别为 0.5B、1.5B、3B、7B、14B、32B 和 72B。因此,我们的主要目的是展示在数据和资源可用的情况下,对基础模型进行微调是多么容易,从而使巴西葡萄牙语 LLM 的开源开发民主化。
2025-09-04 10:30:00
818
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.05.05-2025.05.10
最近的研究突显了生成模型崩溃的风险,即在自生成数据上持续训练时,性能会逐渐下降。然而,现有对模型崩溃的探索仅限于单一的单模态模型,限制了我们对更现实场景的理解,例如通过合成数据自主交互并不断进化的多样化多模态人工智能代理。我们将合成数据训练和模型崩溃研究扩展到多模态视觉语言生成系统,如视觉语言模型(VLM)和文本到图像扩散模型,以及具有多个模型的递归生成-训练循环。
2025-09-03 10:30:00
1701
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.05.10-2025.05.15
检索增强生成(RAG)是增强大型语言模型(LLM)能力的有效方法。现有的方法主要是通过直接利用检索到的前 k 篇文档来优化 RAG 系统中的检索器或生成器。然而,不同用户查询的文档有效性有很大差异,即一些文档提供了有价值的知识,而另一些则完全缺乏关键信息。这阻碍了检索器和生成器在训练过程中的适应性。受人类认知学习的启发,课程学习使用由易到难的样本来训练模型,从而提高模型的泛化能力。本文提出了一种基于课程学习的多阶段 RAG 系统训练框架,命名为 CL-RAG。
2025-09-03 10:30:00
998
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.05.01-2025.05.05
分割模型可以识别图像中一组预定义的对象。然而,能够对隐含多个感兴趣对象的复杂用户查询进行推理的模型仍处于起步阶段。推理分割技术的最新进展–从复杂、隐含的查询文本中生成分割掩码–表明视觉语言模型可以在开放的领域中运行,并产生合理的输出结果。然而,我们的实验表明,这些模型在处理复杂的遥感图像时很吃力。在这项工作中,我们介绍了 LISAt,这是一种视觉语言模型,旨在描述复杂的遥感场景、回答相关问题并分割感兴趣的对象。
2025-09-02 10:30:00
1057
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.05.05-2025.05.10
本文提出利用单模态微调批量增强技术,从超声波图像和相关临床文本信息中检测胎儿器官。我们还规定,在多模态训练之前,先用调查过的医疗数据预训练初始层。首先,我们使用数据集的单模态图像部分进行转移初始化,并进行批量增强。这一步调整了医疗数据的初始层权重。然后,我们将微调初始层的神经网络(NN)应用到批量增强的图像中,以获取特征。我们还从图像描述中提取信息。我们将这些信息与从图像中获取的特征相结合,训练头部层。我们编写了一个数据加载器脚本来加载多模态数据,并使用现有的单模态图像增强技术对多模态数据进行批量增强。
2025-09-02 10:30:00
1005
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2025.04.25-2025.04.30
我们介绍了 DEEVISum(用于摘要的提炼早期退出视觉语言模型),它是一种轻量级、高效且可扩展的视觉语言模型,专为视频分段摘要而设计。DEEVISum 利用结合文本和音频衍生信号的多模式提示,将多阶段知识蒸馏(MSKD)和早期退出(EE)相结合,在性能和效率之间取得了平衡。MSKD 与基线蒸馏法(0.5%)相比,F1 绝对值提高了 1.33%,而 EE 在 F1 下降 1.3 点的情况下,推理时间缩短了约 21%。
2025-09-01 10:30:00
865
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2025.05.01-2025.05.05
本文摘要集涵盖了大型语言模型(LLM)领域的最新研究进展,主要聚焦于模型压缩、高效微调、生物系统控制、知识增强推理等方向。Radio提出基于速率-失真优化的量化技术,实现LLM的高效压缩;HSplitLoRA开发异构参数微调框架,提升联合学习效率;P2I模型探索语言驱动的细胞控制新范式;知识图谱被用于增强LLM的实体消歧能力;另有研究调查强化学习在LLM推理中的应用。这些工作共同推动了LLM在资源受限环境下的实用化进程,同时拓展了其在跨学科领域的新应用场景。
2025-09-01 10:30:00
870
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅