
LLMs论文时报
文章平均质量分 91
LLMs论文时报推送
小小帅AIGC
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.12.20-2024.12.25
远程任务需要对长输入进行推理。现有的解决方案要么需要大量的计算预算、训练数据、访问模型权重,要么使用复杂的特定任务方法。我们提出的 PRISM 可将信息作为块流进行处理,并维护由类型化层次结构模式指定的结构化上下文内存,从而缓解了这些问题。这种方法在各种任务上的性能都优于基准方法,同时使用的上下文比长上下文模型至少小 4 倍。此外,PRISM 还具有标记效率。通过产生短输出和有效利用键值(KV)缓存,与其他短上下文方法相比,该方法最多可降低 54% 的成本。原创 2025-05-23 10:30:00 · 620 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.12.15-2024.12.20
给定一个半结构化知识库(SKB),其中文本文档通过关系相互连接,那么我们如何才能有效地检索相关信息以回答用户的问题呢?检索增强生成(RAG)检索文档以协助大型语言模型(LLM)回答问题;而图形 RAG(GRAG)则使用结构化知识库作为其知识源。然而,许多问题既需要来自知识库的文本信息,也需要来自知识库的关系信息–这些问题被称为 "混合 "问题–这使得检索过程变得复杂,并突出了对一种能利用这两种信息的混合检索方法的需求。原创 2025-05-22 10:30:00 · 547 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.12.10-2024.12.15
本文介绍了全面人工智能辅助翻译编辑率(CATER),这是一种新颖的、完全由提示驱动的机器翻译(MT)质量评估框架。CATER 通过精心设计的基于提示的协议利用大型语言模型 (LLM),超越了传统的参考约束指标,提供了一种多维度、独立于参考的评估方法,可解决语言准确性、语义保真度、上下文连贯性、文体适当性和信息完整性等问题。CATER 的独特优势在于其直接可实施性:通过提供源文本和目标文本以及标准化提示,法律硕士可以快速识别错误、量化编辑工作量,并得出类别级别和总体分数。原创 2025-05-21 10:30:00 · 671 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.12.05-2024.12.10
标题:走向学习推理:比较 LLM 与神经符号在抽象推理中的算术关系摘要这项研究比较了大语言模型(LLM)和神经符号方法在解决瑞文渐进矩阵(RPM)中的应用,RPM是一种视觉抽象推理测试,涉及对数学规则(如级数或算术加法)的理解。直接以文字提示的形式提供视觉属性(假定有一个甲骨文视觉感知模块),可以让我们孤立地测量模型的抽象推理能力。尽管 GPT-4 和 Llama-3 70B 通过甲骨文视觉感知和高级提示技术提供了这种组成结构化的表征,但在 I-RAVEN 数据集的中心星座上仍无法达到完美的准确性。原创 2025-05-20 10:30:00 · 801 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.12.01-2024.12.05
由大型语言模型(LLM)驱动的人工智能代理通过实现无缝、自然和上下文感知的交流,改变了人机交互方式。虽然这些进步带来了巨大的实用性,但它们也继承并放大了固有的安全风险,如偏见、公平、幻觉、隐私泄露和缺乏透明度。本文研究了一个关键漏洞:针对人工智能代理中 LLM 核心的对抗性攻击。具体来说,我们测试了这样一个假设:一个具有欺骗性的简单对抗性前缀,如 \textit{Ignore the document},可以绕过 LLM 的上下文保障措施,迫使 LLM 产生危险或非本意的输出。原创 2025-05-19 10:30:00 · 549 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.25-2024.11.30
本文摘要涵盖了多篇关于大型语言模型(LLM)及其应用的研究论文,主要聚焦于如何利用LLM提升知识提取、多模态处理、语义分割、视频字幕生成等任务的效率和准确性。以下是各篇论文的核心内容: OntoKGen:提出了一种利用LLM自动提取本体并生成知识图谱的管道,通过交互式用户界面和自适应迭代思维链算法,确保本体提取和知识图谱生成符合用户需求,并支持与Neo4j等数据库的无缝集成。 加速多模态LLM:通过优化视觉标记的缩减策略,提出了一种贪婪搜索算法和参数化sigmoid函数,显著提升了多模态LLM(如LLaVA原创 2025-05-16 10:30:00 · 812 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.20-2024.11.25
本文摘要涵盖了多篇关于大型语言模型(LLM)及其在多模态、多语言、算术推理和情报分析等领域的应用研究。首先,ReflectiVA模型通过自省标记和外部知识源增强多模态LLM,提升了基于知识的视觉问题解答能力。其次,研究探讨了视觉语言模型中的认知对齐问题,提出了实体增强认知对齐方法,以提高地标识别性能。第三,研究比较了LLM与教师评分在多维作文评分中的表现,发现闭源模型在语言相关标准上表现更优。第四,BayLing 2通过语言对齐,将高资源语言的能力有效转移到低资源语言,提升了多语言翻译和理解能力。第五,研究原创 2025-05-16 10:30:00 · 884 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.15-2024.11.20
AdaCM$^2$ 提出了一种自适应跨模态内存缩减方法,用于处理超长时间视频理解任务,显著降低了内存使用并提升了性能。 Procedural Knowledge in Pretraining 研究了大型语言模型(LLM)在推理任务中依赖的程序性知识,发现模型通过综合预训练数据中的程序性知识进行推理。 Visual-Oriented Fine-Grained Knowledge Editing 提出了一种面向多模态大型语言模型(MLLM)的细粒度知识编辑方法,解决了多模态语境下的编辑挑战。 Enhancing原创 2025-05-15 10:30:00 · 716 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.10-2024.11.15
本文摘要了多篇关于大语言模型(LLM)的最新研究论文,涵盖了从推理加速、模型对齐到时间序列预测等多个领域。**《Squeezed Attention: Accelerating Long Context Length LLM Inference》提出了一种名为“挤压注意力”的机制,通过离线聚类和分层中心点查找,显著减少了长上下文推理的计算成本,提升了推理速度。《Approximated Variational Bayesian Inverse Reinforcement Learning for Large原创 2025-05-15 10:30:00 · 668 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.05-2024.11.10
标题:摘要2附录:学术评论提升 LLM 长期语境能力摘要大型语言模型(LLMs)在各种任务中都表现出了不俗的性能,但它们处理长语境阅读的能力仍然具有挑战性。本研究探讨了利用高质量学术同行评议数据对 LLM 进行微调以增强其长语境能力的有效性。我们比较了直接偏好优化(DPO)方法和监督微调(SFT)方法,证明了 DPO 的优越性和数据效率。我们的实验表明,微调后的模型比 phi-3 提高了 4.04 个点,在 Qasper 基准上提高了 2.6% (仅使用 2000 个样本)。原创 2025-05-14 10:30:00 · 633 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.11.01-2024.11.05
大型语言模型(LLMs)的解除学习对于确保人工智能的使用符合道德规范和负责任是至关重要的,尤其是在解决隐私泄露、偏见、安全性和不断发展的法规方面。现有的 LLM 取消学习方法通常依赖于保留数据或参考 LLM,但它们很难在取消学习性能与整体模型效用之间取得充分平衡。之所以会出现这种挑战,是因为利用显式保留数据或来自参考 LLM 的隐式保留数据知识对模型进行微调,往往会模糊遗忘数据和保留数据之间的界限,因为不同的查询往往会引起类似的响应。原创 2025-05-14 10:30:00 · 1026 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.10.25-2024.10.30
从可靠性和可维护性(RAM)领域的大型复杂技术文档中提取相关的结构化知识是一项劳动密集型工作,而且容易出错。为了应对这一挑战,我们提出了本体提取和知识图谱(KG)生成的真正管道 OntoKGen。OntoKGen 利用大型语言模型(LLM),通过交互式用户界面,在我们的自适应迭代思维链(CoT)算法的指导下,确保本体提取过程以及知识图谱生成符合用户的特定需求。尽管 KG 生成遵循基于已确认本体的清晰、结构化路径,但并不存在普遍正确的本体,因为它本质上是基于用户的偏好。原创 2025-05-13 10:30:00 · 1030 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.10.20-2024.10.25
多模态语言模型(MLLMs)是大型语言模型的自然延伸,用于处理结合文本和图像数据的多模态输入。由于它们能够处理涉及两种模式的复杂任务,因此最近备受关注。然而,它们的有效性仅限于在训练过程中获得的知识,这限制了它们的实用性。在这项工作中,我们引入了一种新方法,通过整合外部知识源来增强 MLLM 的适应性。我们提出的反思性 LLaVA(ReflectiVA)模型利用反思标记来动态确定对外部知识的需求,并预测从外部数据库检索到的信息的相关性。代币按照两阶段双模型训练配方进行训练。原创 2025-05-13 10:30:00 · 467 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.10.15-2024.10.20
大语言模型(LLM)的进步推动了通过将 LLM 与视觉模型相结合来改进视频理解任务。然而,大多数现有的基于 LLM 的模型(如 VideoLLaMA、VideoChat)都局限于处理短时视频。最近有人尝试通过提取视觉特征并将其压缩到固定的内存大小中来理解长期视频。然而,这些方法仅利用视觉模式来合并视频标记,忽略了视觉查询与文本查询之间的相关性,导致难以有效处理复杂的问题解答任务。为了应对长视频和复杂提示的挑战,我们提出了 AdaCM。原创 2025-05-12 10:30:00 · 712 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.10.10-2024.10.15
标题:摘要2附录:学术评论提升 LLM 长期语境能力摘要大型语言模型(LLMs)在各种任务中都表现出了不俗的性能,但它们处理长语境阅读的能力仍然具有挑战性。本研究探讨了利用高质量学术同行评议数据对 LLM 进行微调以增强其长语境能力的有效性。我们比较了直接偏好优化(DPO)方法和监督微调(SFT)方法,证明了 DPO 的优越性和数据效率。我们的实验表明,微调后的模型比 phi-3 提高了 4.04 个点,在 Qasper 基准上提高了 2.6% (仅使用 2000 个样本)。原创 2025-05-12 10:30:00 · 1602 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.25-2024.09.30
影响语言产生的神经系统疾病,如阿尔茨海默病(AD),会对患者和护理者的生活产生重大影响,无论是通过社交、心理情感影响还是其他尚未完全理解的方面。大型语言模型(LLM)架构的最新进展开发了许多工具,可通过自发语音识别神经系统疾病的代表性特征。然而,大型语言模型通常缺乏可解释性,这意味着它们无法为其决策提供明确而具体的理由。因此,我们需要能够识别语音中神经系统疾病代表性特征的方法,并清楚地解释为什么这些特征是相关的。原创 2025-03-24 15:38:59 · 709 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.20-2024.09.25
奖励推理(从人类偏好中学习奖励模型)是从人类反馈中强化学习(RLHF)的关键中间步骤,用于微调大型语言模型(LLM),如 ChatGPT。在实践中,奖励推理面临着几个基本挑战,包括双重问题规范错误、奖励模型评估缺乏基本事实、分布偏移以及联合奖励模型和策略训练中的过拟合。避免这些缺陷的另一种方法是不进行奖励推理的直接策略优化,如直接偏好优化(DPO),它提供了一种简单得多的管道,并在 LLM 中取得了经验上的成功。然而,DPO 利用的是最优策略与奖励函数之间的闭式表达,这只适用于强盗设置或确定性 MDP。原创 2025-03-24 15:38:37 · 902 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.15-2024.09.20
多语言大型语言模型(LLM)是出色的翻译工具,但这在很大程度上仅限于高资源语言。对于许多 LLM 来说,翻译低资源语言仍然是一项具有挑战性的任务。为了在这种低资源环境下最大限度地提高数据效率,我们引入了 Mufu,其中包括自动生成的多语种候选语种选择,以及在提示中纠正不准确翻译的指令。Mufu 提示将翻译任务转化为贴片翻译任务,并试图利用 LLM 的推理能力和辅助翻译候选语,要求模型从中评估输入质量、跨语言对齐语义、从相关输入中复制并覆盖不正确的实例。原创 2025-03-24 15:38:19 · 917 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.01-2024.09.05
自 ChatGPT 问世以来,大型语言模型(LLM)在各种任务中表现出色,但在很大程度上仍是黑盒系统。因此,它们的开发在很大程度上依赖于数据驱动方法,限制了通过改变内部架构和推理途径来提高性能。因此,许多研究人员开始探索 LLMs 的潜在内部机制,旨在找出其推理瓶颈的本质,而大多数研究都集中在注意力方面。我们的调查旨在通过集中研究注意头的可解释性和内在机制来揭示 LLMs 的内部推理过程。我们首先将人类的思维过程提炼为一个四阶段框架:知识回顾、上下文识别、潜在推理和表达准备。原创 2025-03-24 15:36:58 · 704 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.05-2024.09.10
在大型语言模型(LLM)领域,处理长语境的能力对于多轮对话、代码生成和文档摘要等任务越来越重要。本文探讨了提高长语境性能、降低计算复杂度和利用预训练模型(统称为 “不可能三角”)等难题。我们介绍了 E2LLM(编码器拉长大语言模型),这是一种有效解决这一矛盾的新方法。该方法包括将长上下文分割成块,通过预训练的文本编码器将每个块压缩成嵌入向量,并利用适配器将这些表示与仅解码器的 LLM 对齐。为了便于 LLM 理解软提示,我们采用了两个训练目标,分别侧重于编码器输出的重构和长语境指令的微调。原创 2024-09-27 12:49:13 · 987 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.09.10-2024.09.15
由于预训练的大型语言模型(LLMs)在自然语言处理方面的成功,它们在生物医学领域吸引了越来越多的关注。然而,在将这些模型应用于生物信息学和生物医学领域时,多源基因组学数据的复杂特征和异质性带来了巨大的挑战。为了应对这些挑战,我们提出了 GP-GPT,这是第一个用于基因表型知识表示和基因组学关系分析的专业化大型语言模型。我们的模型在一个由超过 3,000,000 个基因组学、蛋白质组学和医学遗传学术语组成的综合语料库上分两个阶段进行了微调,该语料库来自多个大规模验证数据集和科学出版物。原创 2024-09-26 13:00:51 · 973 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.25-2024.08.31
大语言模型(LLM)在处理长语境任务时面临巨大挑战,因为它们在预训练时的有效语境窗口大小有限,这限制了它们在扩展序列上的泛化能力。同时,通过后预训扩展 LLM 的上下文窗口非常耗费资源。为了解决这个问题,我们引入了 LongRecipe,这是一种用于扩展 LLM 上下文窗口的高效训练策略,包括影响性标记分析、位置索引转换和训练优化策略。它能在保持训练效率的同时模拟长序列输入,并显著提高模型对长程依赖关系的理解能力。原创 2024-09-25 12:58:37 · 1467 阅读 · 0 评论 -
AI推介-大语言模型LLMs之RAG(检索增强生成)论文速览(arXiv方向):2024.07.20-2024.08.15
在开放领域问题解答(OpenQA)等知识密集型任务中,大型语言模型(LLM)往往难以仅依靠其内部(参数)知识生成符合事实的答案。为解决这一局限性,检索增强生成(RAG)系统通过从外部来源检索相关信息来增强 LLM,从而将检索器定位为关键组件。虽然高密度检索表现出了最先进的性能,但其训练却面临着挑战,原因是地面实况证据稀缺,这主要归咎于人工标注的高成本。在本文中,我们提出了 W-RAG,利用 LLM 的排名功能创建弱标签数据,用于训练高密度检索器。原创 2024-09-24 13:19:56 · 962 阅读 · 0 评论 -
AI推介-大语言模型LLMs之RAG(检索增强生成)论文速览(arXiv方向):2024.08.15-2024.09.10
检索增强生成(RAG)已成为在使用私有和最新知识库的同时使用大型语言模型(LLM)的常见范例。在这项工作中,我们探讨了在评估 RAG 系统生成的基础答案时使用 LLM 作为法官所面临的挑战。为了评估法官模型的校准和判别能力,我们确定了 7 种生成器故障模式,并引入了 GroUSE(Grounded QA Unitary Scoring of Evaluators)–一种包含 144 个单元测试的元评估基准。原创 2024-09-24 13:19:44 · 1293 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.20-2024.08.25
最近在收集和分析连续教育数据方面取得的进展,使时间序列分析在教育研究中占据了举足轻重的地位,凸显了其在促进数据驱动决策方面的重要作用。然而,目前还缺乏对这些进展进行整合的全面总结。据我们所知,本文是第一篇专门针对教育领域的时间序列分析技术进行全面评述的文章。我们首先探讨了教育数据分析的前景,对与教育相关的各种数据源和类型进行了分类。然后,我们回顾了四种著名的时间序列方法–预测、分类、聚类和异常检测–说明了它们在教育环境中的具体应用点。原创 2024-09-23 10:17:48 · 1113 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.15-2024.08.20
将大型语言模型(LLM)与人类推理方法相结合,可确保 LLM 做出符合道德标准且与人类相似的决定。由于目前的模型容易产生误报并提供恶意回复,因此引发了伦理问题。为了解决这个问题,我们策划了一个名为 “对齐理由数据集”(DFAR)的伦理数据集,旨在帮助对齐语言模型,生成类似人类的理由。该数据集包括带有道德-不道德标签的语句及其相应的原因。在本研究中,我们采用了一种独特而新颖的微调方法,即利用道德标签及其相应的原因(L+R),而现有的微调方法仅使用标签(L)。原创 2024-09-03 13:05:05 · 1042 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.10-2024.08.15
在开放领域问题解答(OpenQA)等知识密集型任务中,大型语言模型(LLM)往往难以仅依靠其内部(参数)知识生成符合事实的答案。为解决这一局限性,检索增强生成(RAG)系统通过从外部来源检索相关信息来增强 LLM,从而将检索器定位为关键组件。虽然高密度检索表现出了最先进的性能,但其训练却面临着挑战,原因是地面实况证据稀缺,这主要归咎于人工标注的高成本。在本文中,我们提出了 W-RAG,利用 LLM 的排名功能创建弱标签数据,用于训练高密度检索器。原创 2024-09-02 12:48:25 · 1235 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.05-2024.08.10
有关大型语言模型(LLMs)文化意识的许多工作都集中在模型对地缘文化多样性的敏感性上。然而,除了跨文化差异之外,不同文化之间也存在共同点。例如,美国的新娘面纱与中国的 "红盖头 "在文化上扮演着相似的角色。在本研究中,我们引入了一个基准数据集 CUNIT,用于评估纯解码器 LLM 在理解概念的文化统一性方面的能力。具体来说,CUNIT 包含 1,425 个评估示例,基于 10 个国家的 285 个传统文化特定概念。基于对每个概念的文化相关特征进行系统的人工标注,我们计算出任何一对跨文化概念之间的文化关联。原创 2024-08-15 13:15:46 · 952 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.01-2024.08.05
人类并非经济人(即理性经济人)。作为人类,我们会表现出系统性的行为偏差,如损失厌恶、锚定、框架等,这些偏差会导致我们做出次优的经济决策。既然这些偏差可能存在于训练大型语言模型(LLMs)的文本数据中,那么 LLMs 在多大程度上也容易出现同样的行为偏差呢?了解 LLM 中的这些偏差对于部署 LLM 以支持人类决策至关重要。我们提出了效用理论–现代经济理论的核心范式–作为评估 LLMs 经济偏差的一种方法。效用理论可以量化经济行为,并将其与完全理性或人类行为等基准进行比较。原创 2024-08-14 12:40:14 · 1326 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.07.25-2024.08.01
本体是特定领域知识的正式表述,为组织和理解复杂信息提供了结构化框架。然而,创建本体是一项复杂而耗时的工作。ChEBI 是化学领域著名的本体论,为定义化学实体及其属性提供了全面的资源。然而,它只涵盖了快速增长的化学知识中的一小部分,而且不提供科学文献参考。为了解决这个问题,我们提出了一种方法,即利用来自 Chebi 的知识来扩充现有的注释文本语料库,并微调大型语言模型 (LLM),以识别科学文本中的化学实体及其作用。我们的实验证明了我们方法的有效性。原创 2024-08-06 12:40:45 · 1240 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.07.20-2024.07.25
机器学习加速硬件中引入了 float8 等低精度格式,以提高大型语言模型训练和推理的计算效率。然而,由于匹配更高精度训练精度所需的技术非常复杂,有时甚至非常脆弱,因此延缓了语言学习社区对低精度格式的采用。在这项工作中,我们提出了 Scalify,这是一种用于计算图的端到端规模传播范例,它概括并形式化了现有的张量缩放方法。实验结果表明,Scalify 支持开箱即用的 float8 矩阵乘法和梯度表示,以及 float16 优化器状态存储。原创 2024-07-31 10:06:51 · 801 阅读 · 0 评论 -
AI推介-大语言模型LLMs之RAG(检索增强生成)论文速览(arXiv方向):2024.07.01-2024.07.20
在这项工作中,我们介绍了 ChatQA 2,这是一种基于 Llama3 的模型,旨在缩小开放式 LLM 与领先的专有模型(如 GPT-4-Turbo)在长语境理解和检索增强生成(RAG)能力方面的差距。这两项能力对于 LLM 处理大量信息至关重要,因为这些信息无法通过单一提示进行处理,而这两项能力又是相辅相成的,具体取决于下游任务和计算预算。原创 2024-07-30 12:35:59 · 896 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.07.15-2024.07.20
尽管在三维点云分割方面取得了重大进展,但现有方法主要针对特定任务,并依赖于显式指令来识别目标,缺乏在统一框架内推断和理解隐式用户意图的能力。在这项工作中,我们提出了一个名为 SegPoint 的模型,该模型利用多模态大语言模型(LLM)的推理能力,可在各种任务中生成按点划分的分割掩码:1)三维指令分割;2)三维指代分割;3)三维语义分割;4)三维开放词汇语义分割。为了推进三维教学研究,我们引入了一个新的基准–Instruct3D,旨在评估复杂和隐含教学文本的分段性能,其中包含 2,565 个点云-教学对。原创 2024-07-29 12:39:04 · 663 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.07.10-2024.07.15
在人工智能驱动的多样化故事世界中,有一个独特的机会可以让年轻受众参与定制的个性化叙事。本文介绍的 FairyLandAI 是通过 OpenAI 的应用程序接口(API)开发的创新型大语言模型(LLM),专门用于为儿童创作个性化的童话故事。FairyLandAI 的显著特点在于它的双重能力:它不仅能生成引人入胜、适合年龄、反映各种传统的故事,还能自主生成适合 GenAI 和 Dalle-3 等高级图像生成工具的富有想象力的提示,从而丰富讲故事的体验。原创 2024-07-16 12:39:42 · 1443 阅读 · 0 评论 -
AI推介-大语言模型LLMs之RAG(检索增强生成)论文速览(arXiv方向):2024.06.20-2024.07.01
使用 SAPPhIRE 因果关系模型表示系统可以激发设计灵感。然而,创建技术系统或自然系统的 SAPPhIRE 模型需要从多个技术文档中获取有关系统工作原理的技术知识。本研究探讨了如何使用大型语言模型(也称 LLM)生成与 SAPPhIRE 因果关系模型相关的准确技术内容。本文是两部分研究的第一部分,介绍了一种利用 LLM 的检索增强生成技术抑制幻觉的方法,以生成与 SAPPhIRE 结构相关的科学信息支持的技术内容。研究结果表明,选择用于为 LLM 生成技术内容提供上下文的参考知识非常重要。原创 2024-07-11 12:54:43 · 1762 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.07.05-2024.07.10
标题:人工直觉科学摘要的高效分类摘要对科学短文(如拨款或出版物摘要)进行粗略分类,以用于战略洞察或研究组合管理,是非常可取的。这些文本能将密集的信息有效地传递给拥有丰富知识的专家,帮助他们进行解读。然而,由于篇幅简短且缺乏上下文,这项任务很难实现自动化。为了弥补这一不足,我们开发了一种新颖的方法来生成和适当分配粗略的特定领域标签。我们表明,大语言模型(LLM)可以提供对这项任务至关重要的元数据,这一过程类似于代表人类直觉的补充知识的增强,我们还提出了一个工作流程。原创 2024-07-11 12:54:33 · 1136 阅读 · 0 评论 -
AI推介-大语言模型LLMs之RAG(检索增强生成)论文速览(arXiv方向):2024.06.01-2024.06.20
开发人员需要花费大量时间来查找与其问题相关的信息。Stack Overflow 一直是领先的资源,随着大型语言模型 (LLM) 的出现,ChatGPT 等生成模型也被频繁使用。然而,单独使用每一种模型都会遇到困难。搜索答案既耗时又乏味,研究人员为解决这一问题开发的许多工具就证明了这一点。另一方面,使用 LLM 并不可靠,因为它们可能会产生不相关或不可靠的答案(即幻觉)。原创 2024-07-10 12:51:24 · 1526 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.07.01-2024.07.05
大型语言模型(LLM)的幻觉问题极大地限制了其可靠性和可信度。人类有一种自我意识过程,能让我们在面对询问时识别出自己不知道的东西。受此启发,我们的论文研究了 LLM 能否在生成响应之前估计自己的幻觉风险。我们从训练数据源和 15 种不同的自然语言生成(NLG)任务(跨越 700 多个数据集)两方面广泛分析了 LLM 的内部机制。我们的实证分析揭示了两个关键见解:(1) LLM 的内部状态表明他们是否在训练数据中看到过查询;(2) LLM 的内部状态表明他们是否有可能对查询产生幻觉。原创 2024-07-09 12:43:24 · 1712 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.06.25-2024.07.01
基于扩散的模型在生成具有各种布局的高质量图像方面显示出巨大的潜力,这对下游感知任务大有裨益。然而,仅由语言驱动的全自动布局生成,以及衡量多个生成实例的合适指标,还没有得到很好的探索。在这项工作中,我们提出了自动樱桃拾取器(Auto Cherry-Picker,ACP),这是一个新颖的框架,可生成高质量的多模态训练实例,以增强感知和多模态训练。从一个简单的自然语言概念列表开始,我们促使大型语言模型(LLM)生成详细的描述并设计合理的布局。接下来,我们使用现成的文本到图像模型生成多幅图像。原创 2024-07-04 13:39:54 · 1569 阅读 · 0 评论 -
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.06.20-2024.06.25
近年来,大型语言模型(LLM)在解析文本数据和生成代码方面表现出了卓越的能力。然而,由于网络表格中经常出现的结构差异和表格单元值的不一致性,它们在涉及表格数据的任务中,尤其是那些需要符号推理的任务中的表现面临挑战。在本文中,我们介绍了 NormTab,这是一个新颖的框架,旨在通过规范化网络表格来提高 LLM 的符号推理性能。我们将表格规范化作为一个独立的一次性预处理步骤进行研究,利用 LLM 支持表格数据的符号推理。原创 2024-07-02 13:44:26 · 1006 阅读 · 0 评论