- 博客(207)
- 收藏
- 关注
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.12.20-2024.12.25
远程任务需要对长输入进行推理。现有的解决方案要么需要大量的计算预算、训练数据、访问模型权重,要么使用复杂的特定任务方法。我们提出的 PRISM 可将信息作为块流进行处理,并维护由类型化层次结构模式指定的结构化上下文内存,从而缓解了这些问题。这种方法在各种任务上的性能都优于基准方法,同时使用的上下文比长上下文模型至少小 4 倍。此外,PRISM 还具有标记效率。通过产生短输出和有效利用键值(KV)缓存,与其他短上下文方法相比,该方法最多可降低 54% 的成本。
2025-05-23 10:30:00
624
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.12.15-2024.12.20
自监督视觉基础模型能产生强大的嵌入,在广泛的下游任务中表现出色。然而,与 CLIP 等视觉语言模型不同的是,自监督视觉特征并不容易与语言保持一致,这阻碍了它们在开放词汇任务中的应用。我们的方法被命名为 dino.txt,为 DINOv2(一种广泛使用的自监督视觉编码器)解锁了这一新功能。我们以 LiT 训练策略为基础,该策略训练文本编码器与冻结的视觉模型保持一致,但在密集任务中效果并不理想。
2025-05-23 10:30:00
748
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.12.15-2024.12.20
给定一个半结构化知识库(SKB),其中文本文档通过关系相互连接,那么我们如何才能有效地检索相关信息以回答用户的问题呢?检索增强生成(RAG)检索文档以协助大型语言模型(LLM)回答问题;而图形 RAG(GRAG)则使用结构化知识库作为其知识源。然而,许多问题既需要来自知识库的文本信息,也需要来自知识库的关系信息–这些问题被称为 "混合 "问题–这使得检索过程变得复杂,并突出了对一种能利用这两种信息的混合检索方法的需求。
2025-05-22 10:30:00
549
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.12.10-2024.12.15
多模态大型语言模型(MLLMs)的最新进展表明,它在推进各种视觉语言任务方面具有前所未有的能力。然而,MLLM 面临着幻觉和与输入数据不符的误导性输出等重大挑战。虽然现有的努力都是为了消除 MLLM 的幻觉,但有几个关键的挑战仍未解决。首先,当前的方法主要集中于解决感知层面的错误,而另一种重要的认知层面的错误却可能被忽视,因为这需要事实常识。此外,现有方法可能无法找到更有效的方法来表示视觉输入,而视觉输入是引发视幻觉的一个关键瓶颈。
2025-05-22 10:30:00
748
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.12.10-2024.12.15
本文介绍了全面人工智能辅助翻译编辑率(CATER),这是一种新颖的、完全由提示驱动的机器翻译(MT)质量评估框架。CATER 通过精心设计的基于提示的协议利用大型语言模型 (LLM),超越了传统的参考约束指标,提供了一种多维度、独立于参考的评估方法,可解决语言准确性、语义保真度、上下文连贯性、文体适当性和信息完整性等问题。CATER 的独特优势在于其直接可实施性:通过提供源文本和目标文本以及标准化提示,法律硕士可以快速识别错误、量化编辑工作量,并得出类别级别和总体分数。
2025-05-21 10:30:00
676
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.12.05-2024.12.10
对比学习已成为表征学习的重要框架,是 SimCLR 和 CLIP 等单模态和双模态应用的基础。为了解决批量规模依赖性大和双模性等基本限制,SogCLR 等方法利用随机优化来实现全局对比目标。受 SogCLR 效率和适应性的启发,我们引入了 AmCLR 和 xAmCLR 目标函数,专为双模视觉语言模型量身定制,以进一步增强对比学习的鲁棒性。
2025-05-21 10:30:00
815
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.12.05-2024.12.10
标题:走向学习推理:比较 LLM 与神经符号在抽象推理中的算术关系摘要这项研究比较了大语言模型(LLM)和神经符号方法在解决瑞文渐进矩阵(RPM)中的应用,RPM是一种视觉抽象推理测试,涉及对数学规则(如级数或算术加法)的理解。直接以文字提示的形式提供视觉属性(假定有一个甲骨文视觉感知模块),可以让我们孤立地测量模型的抽象推理能力。尽管 GPT-4 和 Llama-3 70B 通过甲骨文视觉感知和高级提示技术提供了这种组成结构化的表征,但在 I-RAVEN 数据集的中心星座上仍无法达到完美的准确性。
2025-05-20 10:30:00
804
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.12.01-2024.12.05
单模态视觉模型和语言模型的一致性如何?尽管之前的研究已经着手回答这个问题,但其评估方法并不能直接转化为这些模型在实际视觉语言任务中的应用。在本文中,我们受线性探测的启发,提出了一种直接评估方法来评估视觉与语言的一致性。我们发现 SSL 视觉模型的对齐程度取决于其 SSL 训练目标,而且我们发现 SSL 表征的聚类质量比其线性可分性对对齐性能的影响更大。
2025-05-20 10:30:00
955
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.12.01-2024.12.05
由大型语言模型(LLM)驱动的人工智能代理通过实现无缝、自然和上下文感知的交流,改变了人机交互方式。虽然这些进步带来了巨大的实用性,但它们也继承并放大了固有的安全风险,如偏见、公平、幻觉、隐私泄露和缺乏透明度。本文研究了一个关键漏洞:针对人工智能代理中 LLM 核心的对抗性攻击。具体来说,我们测试了这样一个假设:一个具有欺骗性的简单对抗性前缀,如 \textit{Ignore the document},可以绕过 LLM 的上下文保障措施,迫使 LLM 产生危险或非本意的输出。
2025-05-19 10:30:00
551
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.25-2024.11.30
随着大型视觉语言模型(VLM)的长足发展,人们对其潜在误用和滥用的担忧也迅速增加。以前的研究已经强调了 VLM 易受越狱攻击的问题,在越狱攻击中,精心设计的输入会导致模型生成违反道德和法律标准的内容。然而,由于有害内容的过度曝光和缺乏隐蔽的恶意引导,现有的方法在与 GPT-4o 等最先进的 VLMs 的对抗中举步维艰。在这项工作中,我们提出了一种新型越狱攻击框架:多模式链接(MML)攻击。MML 从密码学中汲取灵感,利用跨文本和图像模式的加密-解密过程来减少恶意信息的过度曝光。
2025-05-19 10:30:00
1355
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.20-2024.11.25
本文摘要涵盖了多篇关于大型语言模型(LLM)及其在多模态、多语言、算术推理和情报分析等领域的应用研究。首先,ReflectiVA模型通过自省标记和外部知识源增强多模态LLM,提升了基于知识的视觉问题解答能力。其次,研究探讨了视觉语言模型中的认知对齐问题,提出了实体增强认知对齐方法,以提高地标识别性能。第三,研究比较了LLM与教师评分在多维作文评分中的表现,发现闭源模型在语言相关标准上表现更优。第四,BayLing 2通过语言对齐,将高资源语言的能力有效转移到低资源语言,提升了多语言翻译和理解能力。第五,研究
2025-05-16 10:30:00
888
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.25-2024.11.30
本文摘要涵盖了多篇关于大型语言模型(LLM)及其应用的研究论文,主要聚焦于如何利用LLM提升知识提取、多模态处理、语义分割、视频字幕生成等任务的效率和准确性。以下是各篇论文的核心内容: OntoKGen:提出了一种利用LLM自动提取本体并生成知识图谱的管道,通过交互式用户界面和自适应迭代思维链算法,确保本体提取和知识图谱生成符合用户需求,并支持与Neo4j等数据库的无缝集成。 加速多模态LLM:通过优化视觉标记的缩减策略,提出了一种贪婪搜索算法和参数化sigmoid函数,显著提升了多模态LLM(如LLaVA
2025-05-16 10:30:00
813
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.15-2024.11.20
通用视觉语言模型(VLM)在计算机视觉领域取得了长足进步,但在医疗保健等专业领域却显得力不从心,因为在这些领域,专家知识至关重要。在传统的计算机视觉任务中,创造性的或近似的答案可能是可以接受的,但在医疗保健领域,精确性是最重要的。目前的大型多模态模型,如 Gemini 和 GPT-4o 等,由于依赖于记忆的互联网知识,而不是医疗保健领域所需的细致入微的专业知识,因此不足以胜任医疗任务。VLM 的训练通常分为三个阶段:视觉预训练、视觉语言预训练和指令微调(IFT)。
2025-05-16 10:30:00
979
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.20-2024.11.25
之前的研究表明,嘈杂的网络抓取图像-文本对可能会限制像 CLIP 这样的视觉语言预训练,因此提出了利用合成字幕进行学习的可行替代方案。我们的工作延续了这一努力,引入了两个简单而有效的设计,以更好地利用描述丰富的合成标题。首先,通过观察合成字幕学习中强烈的反向效应–简短的合成字幕通常比完整的字幕性能高得多–我们因此只向文本编码器输入部分合成字幕。其次,我们加入了一个自回归标题器来模仿重构过程–通过对成对图像输入和网络抓取的文本描述进行调节,标题器学会了预测由高级 MLLM 生成的全长合成标题。
2025-05-16 10:30:00
914
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.10-2024.11.15
本文摘要了多篇关于大语言模型(LLM)的最新研究论文,涵盖了从推理加速、模型对齐到时间序列预测等多个领域。**《Squeezed Attention: Accelerating Long Context Length LLM Inference》提出了一种名为“挤压注意力”的机制,通过离线聚类和分层中心点查找,显著减少了长上下文推理的计算成本,提升了推理速度。《Approximated Variational Bayesian Inverse Reinforcement Learning for Large
2025-05-15 10:30:00
671
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.15-2024.11.20
AdaCM$^2$ 提出了一种自适应跨模态内存缩减方法,用于处理超长时间视频理解任务,显著降低了内存使用并提升了性能。 Procedural Knowledge in Pretraining 研究了大型语言模型(LLM)在推理任务中依赖的程序性知识,发现模型通过综合预训练数据中的程序性知识进行推理。 Visual-Oriented Fine-Grained Knowledge Editing 提出了一种面向多模态大型语言模型(MLLM)的细粒度知识编辑方法,解决了多模态语境下的编辑挑战。 Enhancing
2025-05-15 10:30:00
720
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.05-2024.11.10
摘要: 本文介绍了一种名为ZOPP的零样本离板全景感知框架,旨在解决自动驾驶场景中的全景感知问题。ZOPP通过结合视觉和语言模型,利用预训练的多模态模型进行零样本推理,无需特定任务的训练数据。该框架通过生成语义和实例分割结果,结合上下文信息,实现了对复杂场景的全面理解。实验结果表明,ZOPP在多个基准数据集上表现出色,尤其是在零样本设置下,能够有效处理未见过的场景和对象。ZOPP的提出为自动驾驶中的全景感知提供了一种新的解决方案,具有广泛的应用前景。 本文探讨了多模态大型语言模型(MLLMs)在视觉语言任务
2025-05-15 10:30:00
826
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.10-2024.11.15
本文摘要涵盖了七篇关于多模态模型和视觉语言模型的研究论文,主要聚焦于模型在视觉理解、生成和一致性方面的改进。第一篇论文提出了一种自监督多模态框架,用于预测中风风险,通过整合脑成像和临床数据,显著提高了预测准确性。第二篇论文引入了一种多尺度对齐方法,增强了多模态大语言模型在细粒度视觉理解中的表现。第三篇论文探讨了多模态大语言模型的跨模态一致性,揭示了视觉和语言模态之间的不一致性。第四篇论文提出了一种知识适应性字幕微调方法,有效平衡了字幕的描述性和幻觉风险。第五篇论文介绍了JanusFlow框架,将图像理解和生
2025-05-15 10:30:00
1683
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.01-2024.11.05
大型语言模型(LLMs)的解除学习对于确保人工智能的使用符合道德规范和负责任是至关重要的,尤其是在解决隐私泄露、偏见、安全性和不断发展的法规方面。现有的 LLM 取消学习方法通常依赖于保留数据或参考 LLM,但它们很难在取消学习性能与整体模型效用之间取得充分平衡。之所以会出现这种挑战,是因为利用显式保留数据或来自参考 LLM 的隐式保留数据知识对模型进行微调,往往会模糊遗忘数据和保留数据之间的界限,因为不同的查询往往会引起类似的响应。
2025-05-14 10:30:00
1029
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.05-2024.11.10
标题:摘要2附录:学术评论提升 LLM 长期语境能力摘要大型语言模型(LLMs)在各种任务中都表现出了不俗的性能,但它们处理长语境阅读的能力仍然具有挑战性。本研究探讨了利用高质量学术同行评议数据对 LLM 进行微调以增强其长语境能力的有效性。我们比较了直接偏好优化(DPO)方法和监督微调(SFT)方法,证明了 DPO 的优越性和数据效率。我们的实验表明,微调后的模型比 phi-3 提高了 4.04 个点,在 Qasper 基准上提高了 2.6% (仅使用 2000 个样本)。
2025-05-14 10:30:00
633
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.10.25-2024.10.31
近期多模态与视觉语言模型领域的研究进展显著。首先,Neil Chowdhury等人提出的近邻归一化(NNN)方法,无需额外训练即可提升多模态检索模型的性能,实验表明其在CLIP、BLIP等模型上均有效。Hao Zhang等人开发的Text-DiFuse框架,通过文本调制扩散模型解决图像融合中的复合退化问题,显著提升了融合图像的语义性能。Haiwen Li等人提出的MoTaDual框架,通过模态-任务双重对齐,增强了零镜头合成图像检索的能力,在多个基准测试中表现优异。Chen Huang等人提出的聚合-适应提
2025-05-14 10:30:00
682
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.11.01-2024.11.05
指令调整是调整大型视觉语言模型(LVLM)以满足个别任务要求的一种常用技术。迄今为止,大多数现有方法都局限于单任务适应,而真实世界场景中的要求本质上是多样且不断变化的。因此,理想的 LVLM 应在面对任务流分布(即不同领域、新兴能力和新数据集)时保持持续的指令调整,同时最大限度地减少对先前所获知识的遗忘。为了实现这一目标,我们提出了一个新的 LVLM 上的持续指令调优基准(COAST),它包含上述的领域增量、能力增量和数据集增量配置。
2025-05-14 10:30:00
890
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.10.20-2024.10.25
多模态语言模型(MLLMs)是大型语言模型的自然延伸,用于处理结合文本和图像数据的多模态输入。由于它们能够处理涉及两种模式的复杂任务,因此最近备受关注。然而,它们的有效性仅限于在训练过程中获得的知识,这限制了它们的实用性。在这项工作中,我们引入了一种新方法,通过整合外部知识源来增强 MLLM 的适应性。我们提出的反思性 LLaVA(ReflectiVA)模型利用反思标记来动态确定对外部知识的需求,并预测从外部数据库检索到的信息的相关性。代币按照两阶段双模型训练配方进行训练。
2025-05-13 10:30:00
469
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.10.25-2024.10.30
从可靠性和可维护性(RAM)领域的大型复杂技术文档中提取相关的结构化知识是一项劳动密集型工作,而且容易出错。为了应对这一挑战,我们提出了本体提取和知识图谱(KG)生成的真正管道 OntoKGen。OntoKGen 利用大型语言模型(LLM),通过交互式用户界面,在我们的自适应迭代思维链(CoT)算法的指导下,确保本体提取过程以及知识图谱生成符合用户的特定需求。尽管 KG 生成遵循基于已确认本体的清晰、结构化路径,但并不存在普遍正确的本体,因为它本质上是基于用户的偏好。
2025-05-13 10:30:00
1032
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.10.15-2024.10.20
本文摘要涵盖了六篇关于视觉语言模型和多模态模型的最新研究。首先,C-VUE系统通过自适应状态建模实现了连续视频理解,提高了处理长视频的效率和准确性。其次,ReGuide方法通过自生成的图像自适应概念提升了视觉语言模型的分布外检测能力。第三,NaturalBench基准测试揭示了现有视觉语言模型在处理自然对抗样本时的不足,提出了一种半自动化的评估方法。第四,CLIP-VAD利用CLIP模型进行语音活动检测,展示了其优于传统视觉方法的性能。第五,ZEAL方法利用大型视觉语言模型的置信度实现了零镜头动作定位,无需
2025-05-13 10:30:00
1004
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.10.20-2024.10.25
本文摘要涵盖了六篇关于多模态和视觉语言模型的研究论文,涉及图像检索、风格化图像生成、生物医学任务、开放世界交互、图像-文本匹配以及视觉语言调整等领域。主要研究包括:1)ChatSearch 数据集和生成式检索模型 ChatSearcher,用于一般对话图像检索;2)零镜头风格化图像生成方案,通过图像到文本到图像的转换实现语义协调;3)可解释双语多模态大语言模型 MedRegA,用于生物医学任务;4)ROCKET-1 模型,利用视觉-时间上下文提示进行开放世界交互;5)EntityCLIP 模型,通过多模态注
2025-05-13 10:30:00
876
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.10.10-2024.10.15
标题:摘要2附录:学术评论提升 LLM 长期语境能力摘要大型语言模型(LLMs)在各种任务中都表现出了不俗的性能,但它们处理长语境阅读的能力仍然具有挑战性。本研究探讨了利用高质量学术同行评议数据对 LLM 进行微调以增强其长语境能力的有效性。我们比较了直接偏好优化(DPO)方法和监督微调(SFT)方法,证明了 DPO 的优越性和数据效率。我们的实验表明,微调后的模型比 phi-3 提高了 4.04 个点,在 Qasper 基准上提高了 2.6% (仅使用 2000 个样本)。
2025-05-12 10:30:00
1607
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.10.15-2024.10.20
大语言模型(LLM)的进步推动了通过将 LLM 与视觉模型相结合来改进视频理解任务。然而,大多数现有的基于 LLM 的模型(如 VideoLLaMA、VideoChat)都局限于处理短时视频。最近有人尝试通过提取视觉特征并将其压缩到固定的内存大小中来理解长期视频。然而,这些方法仅利用视觉模式来合并视频标记,忽略了视觉查询与文本查询之间的相关性,导致难以有效处理复杂的问题解答任务。为了应对长视频和复杂提示的挑战,我们提出了 AdaCM。
2025-05-12 10:30:00
715
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.10.01-2024.10.10
本文介绍了几篇关于多模态视觉语言模型的最新研究。AgroGPT提出了一种利用农业领域纯视觉数据构建指令调整数据的方法,创建了AgroGPT模型,擅长处理复杂农业对话。LatteCLIP提出了一种无监督方法,通过LMM生成文本描述来微调CLIP模型,适用于特定领域。Meissonic将非自回归掩蔽图像建模提升到与最先进扩散模型相媲美的水平,生成高质量高分辨率图像。MRAG-Bench提出了一个以视觉为中心的检索增强生成基准,评估多模态模型在利用视觉信息方面的能力。Q-VLM提出了大型视觉语言模型的训练后量化框
2025-05-12 10:30:00
985
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.10.10-2024.10.15
Locality Alignment Improves Vision-Language Models:本文提出了一种新的视觉语言模型(VLM)训练方法,通过定位对齐(locality alignment)和MaskEmbed微调程序,有效捕捉图像的局部和全局语义,显著提升了模型在空间理解任务中的表现。 LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content:LiveXiv是一个基于ArXiv论文的多模态实时基准工具,通过自动
2025-05-12 10:30:00
758
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.25-2024.09.30
由于知识领域的差距和多模态数据的稀缺,外科手术视频语言预培训(VLP)面临着独特的挑战。本研究旨在通过解决手术讲座视频中的文本信息丢失问题和手术 VLP 的时空挑战来弥补这一差距。我们提出了一种分层知识增强方法和一种新颖的程序编码手术知识增强视频语言预训练(PeskaVLP)框架来解决这些问题。知识增强使用大型语言模型(LLM)来完善和丰富手术概念,从而提供全面的语言监督并降低过拟合风险。
2025-03-24 15:40:21
1003
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.20-2024.09.25
语义分割网络在独立和同分布数据的假设条件下取得了巨大成功。然而,由于这些网络通常训练的视觉概念集有限,因此在检测未知语义类别的异常情况时往往力不从心。为了解决这个问题,异常分割通常需要对离群样本进行微调,这就需要在数据收集、标记和模型再训练方面付出额外的努力。为了避免这种繁琐的工作,我们采取了一种不同的方法,建议将视觉语言(VL)编码器纳入现有的异常检测器,利用语义广泛的 VL 预训练来提高异常点识别能力。此外,我们还提出了一种新的评分功能,可通过文本提示实现无需数据和训练的异常点监督。
2025-03-24 15:40:04
681
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.15-2024.09.20
给定语言表达,参考遥感图像分割(RRSIS)旨在识别图像中的地面物体并分配像素标签。这项任务面临的主要挑战之一是通过文本-图像配准捕捉多模态特征。然而,现有的 RRSIS 方法使用的是一种虚构的粗对齐方式,即直接提取语言表达与视觉特征进行融合。本文认为,"细粒度图像-文本配准 "可以改善多模态信息的提取。为此,我们提出了一种新的遥感图像分割方法,称为 FIANet,它能充分利用视觉和语言表征。具体来说,原始参考表达被视为上下文文本,并进一步解耦为地面物体文本和空间位置文本。
2025-03-24 15:39:46
614
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.25-2024.09.30
影响语言产生的神经系统疾病,如阿尔茨海默病(AD),会对患者和护理者的生活产生重大影响,无论是通过社交、心理情感影响还是其他尚未完全理解的方面。大型语言模型(LLM)架构的最新进展开发了许多工具,可通过自发语音识别神经系统疾病的代表性特征。然而,大型语言模型通常缺乏可解释性,这意味着它们无法为其决策提供明确而具体的理由。因此,我们需要能够识别语音中神经系统疾病代表性特征的方法,并清楚地解释为什么这些特征是相关的。
2025-03-24 15:38:59
716
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.20-2024.09.25
奖励推理(从人类偏好中学习奖励模型)是从人类反馈中强化学习(RLHF)的关键中间步骤,用于微调大型语言模型(LLM),如 ChatGPT。在实践中,奖励推理面临着几个基本挑战,包括双重问题规范错误、奖励模型评估缺乏基本事实、分布偏移以及联合奖励模型和策略训练中的过拟合。避免这些缺陷的另一种方法是不进行奖励推理的直接策略优化,如直接偏好优化(DPO),它提供了一种简单得多的管道,并在 LLM 中取得了经验上的成功。然而,DPO 利用的是最优策略与奖励函数之间的闭式表达,这只适用于强盗设置或确定性 MDP。
2025-03-24 15:38:37
903
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.15-2024.09.20
多语言大型语言模型(LLM)是出色的翻译工具,但这在很大程度上仅限于高资源语言。对于许多 LLM 来说,翻译低资源语言仍然是一项具有挑战性的任务。为了在这种低资源环境下最大限度地提高数据效率,我们引入了 Mufu,其中包括自动生成的多语种候选语种选择,以及在提示中纠正不准确翻译的指令。Mufu 提示将翻译任务转化为贴片翻译任务,并试图利用 LLM 的推理能力和辅助翻译候选语,要求模型从中评估输入质量、跨语言对齐语义、从相关输入中复制并覆盖不正确的实例。
2025-03-24 15:38:19
921
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.01-2024.09.05
标题:抽象文本摘要:技术现状、挑战和改进摘要相对于抽取式技术,本调查报告特别关注抽象文本摘要的发展前景,对最新技术、当前挑战和前瞻性研究方向进行了全面概述。我们将这些技术分为传统的序列到序列模型、预训练大型语言模型、强化学习、分层方法和多模态摘要。与以往没有详细研究复杂性、可扩展性和技术比较的作品不同,本综述采用了一种全面的方法,涵盖了最先进的方法、挑战、解决方案、比较、局限性,并描绘了未来的改进方向–为研究人员提供了一个广泛的概览,以推进抽象摘要研究。
2025-03-24 15:37:57
576
原创 AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.08.25-2024.08.31
自动图像异常检测对于制造业的质量检测非常重要。通常的无监督异常检测方法是利用正常样本数据集为每个对象类别训练一个模型。然而,更现实的问题是零/少镜头异常检测,在这种情况下,只有零个或几个正常样本可用。这就给特定对象模型的训练带来了挑战。最近,大型基础视觉语言模型在各种下游任务中显示出强大的零镜头性能。虽然这些模型学习了视觉和语言之间的复杂关系,但它们并不是专门为异常检测任务设计的。
2025-03-24 15:37:36
837
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.01-2024.09.05
自 ChatGPT 问世以来,大型语言模型(LLM)在各种任务中表现出色,但在很大程度上仍是黑盒系统。因此,它们的开发在很大程度上依赖于数据驱动方法,限制了通过改变内部架构和推理途径来提高性能。因此,许多研究人员开始探索 LLMs 的潜在内部机制,旨在找出其推理瓶颈的本质,而大多数研究都集中在注意力方面。我们的调查旨在通过集中研究注意头的可解释性和内在机制来揭示 LLMs 的内部推理过程。我们首先将人类的思维过程提炼为一个四阶段框架:知识回顾、上下文识别、潜在推理和表达准备。
2025-03-24 15:36:58
705
原创 AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.05-2024.09.10
在大型语言模型(LLM)领域,处理长语境的能力对于多轮对话、代码生成和文档摘要等任务越来越重要。本文探讨了提高长语境性能、降低计算复杂度和利用预训练模型(统称为 “不可能三角”)等难题。我们介绍了 E2LLM(编码器拉长大语言模型),这是一种有效解决这一矛盾的新方法。该方法包括将长上下文分割成块,通过预训练的文本编码器将每个块压缩成嵌入向量,并利用适配器将这些表示与仅解码器的 LLM 对齐。为了便于 LLM 理解软提示,我们采用了两个训练目标,分别侧重于编码器输出的重构和长语境指令的微调。
2024-09-27 12:49:13
989
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人