
LLM论文日更
文章平均质量分 87
OptimaAI
LLM大模型|深度学习|信息检索|Python|985硕士在读,准备读博中
论文推送 & 最新前沿
实践教程 & 技术解析
展开
-
【LLM论文日更】| 训练大型语言模型在连续潜在空间中进行推理
Coconut方法通过在传统CoT过程中引入一个简单的修改来实现潜在空间的推理。具体来说,Coconut将最后隐藏状态(即“连续思维”)直接作为下一个输入嵌入,而不是将其解码为词令。原创 2024-12-25 15:42:14 · 1137 阅读 · 0 评论 -
【LLM论文日更】| One Token Can Help!
这篇论文提出了一种名为SPRING的新方法,通过引入可训练的虚拟标记来提升LLMs在RAG场景下的性能,同时保留其通用生成能力。SPRING方法通过引入可训练的虚拟标记来提升LLMs在RAG场景下的性能,同时保留其通用生成能力。:SPRING在不同数量的虚拟标记下表现出一致的性能提升,单个标记即可显著提升LLMs在RAG场景下的性能。通过这些策略,SPRING方法能够在不同数量的虚拟标记下保持一致的性能提升,显示出其可扩展性。:SPRING在不同检索器下的性能变化较小,显示出对检索器变化的鲁棒性。原创 2024-12-17 23:12:41 · 670 阅读 · 0 评论 -
【LLM论文日更】 | 你的专家组合LLM是秘密的免费嵌入模型
具体来说,RW和HS嵌入的聚类结果显示出中等的重叠(AMI和NMI在0.29左右),但它们的Jaccard相似度和精确匹配率较低(分别为0.06和45.54%)。通过分析发现,MoE的路由权重(RW)补充了广泛使用的隐藏状态(HS)嵌入,提供了对输入语义的更深入理解。最近的研究表明,LLMs可以生成高质量的句子嵌入,但这些方法通常依赖于复杂的预训练和大规模的对比目标。总体而言,PromptEOL的使用显著增强了MOEE方法的稳定性和性能,使其在不确定性较高的提示条件下也能保持较高的嵌入质量。原创 2024-12-01 12:20:13 · 966 阅读 · 0 评论 -
【LLM论文日更】| ChatGPT 可以评估人的性格吗? 一个通用评估框架
通过将原始选项转换为{正确,一般正确,部分正确,既不正确也不错误,部分错误,一般错误,错误},并基于CEI构建无偏提示。通过将原始选项转换为{正确,一般正确,部分正确,既不正确也不错误,部分错误,一般错误,错误},并基于CEI构建无偏提示。:实验结果表明,ChatGPT和GPT-4在评估不同受试者的个性时表现出更高的灵活性,并且大多数受试者的评估结果一致。主题替换查询(SRQ)通过将原始问题中的主题(例如,“你”)替换为感兴趣的主题(例如,“男人”),使得LLMs能够分析特定受试者的个性。原创 2024-11-29 20:57:09 · 1088 阅读 · 0 评论 -
【LLM论文日更】| Superfiltering:从弱到强的数据过滤,实现快速指令调整
实验结果表明,Superfiltering方法在使用5%数据的情况下,调优后的模型在成对比较、Huggingface Open LLM排行榜和AlpacaEval排行榜上的表现均优于或等同于使用全量数据的模型。:Superfiltering方法在使用5%数据的情况下,调优后的LLM在成对比较、Huggingface Open LLM排行榜和AlpacaEval排行榜上的表现均优于或等同于使用全量数据进行调优的模型。结果表明,Superfiltering方法在各种策略和模型下的表现均优于全量数据调优模型。原创 2024-11-25 14:56:11 · 756 阅读 · 0 评论 -
【 LLM论文日更|检索增强:大型语言模型是强大的零样本检索器 】
通过将查询与其潜在答案候选结合,LameR在零样本大规模检索中表现出色,显著优于现有的零样本检索方法。未来的工作将探索使用较小的LLM进行查询增强,以进一步提高效率。:将开源LLMs(如LLaMA-2-chat-7B和-13B)集成到LameR框架中,LameR在DL19数据集上的表现优于HyDE配置和传统方法,展示了LameR与各种LLM骨干的适应性和效率。:进一步验证了更强LLM(如GPT-4)对LameR的提升效果,GPT-4在DL20数据集上的表现显著优于其他竞争者,甚至在全相关判断下也表现最佳。原创 2024-11-14 14:44:49 · 1032 阅读 · 0 评论 -
【LLM论文日更】| 分而治之?你应该从哪一部分蒸馏你的LLM?
实验步骤包括:首先使用教师模型生成子问题,然后使用真实答案筛选高质量的子问题,最后使用这些子问题和真实答案来微调学生分解器模型。实验结果显示,蒸馏出的分解模型在性能和推理成本上表现优异,相比蒸馏解决能力,蒸馏分解能力更容易实现且效果更好。研究人员在多个数据集(如GSM8K、DROP和Bamboogle)上进行了实验,验证了蒸馏后的分解器在保持性能的同时,显著降低了推理成本。例如,在GSM8K数据集上,使用蒸馏后的Vicuna-13B模型作为分解器,相比使用原始GPT模型,推理成本降低了约70%。原创 2024-11-06 12:00:25 · 948 阅读 · 0 评论 -
【LLM论文日更】LongReward:利用人工智能反馈改进长上下文大语言模型
未来的工作将致力于训练更小的长上下文奖励模型,探索更长序列和更大规模模型的长上下文对齐。总体而言,LongReward方法不仅显著提高了长上下文LLMs的性能,还增强了其遵循短指令的能力,并且可以与标准的短上下文DPO结合使用,不会影响各自方法的性能。:将LongReward与离线RL算法DPO结合,构建长上下文偏好数据集,并使用DPO算法对SFT模型进行微调,以增强其长上下文能力。:对于完整性,LLM从上下文的每个片段中提取与问题相关的信息,然后再次评估响应的完整性。同样采用CoT来增强评分的可靠性。原创 2024-10-31 16:16:31 · 1130 阅读 · 0 评论 -
【LLM论文日更 | 一种引入上下文的文档嵌入方法 】
对应的问答也基本全是关于人口的统计结果信息,所以这里的邻近是指相似的查询和相似的文档,而不同于平常理解的那种“上下文”,这是逻辑上的相关,而本文的邻近文档是内容上的邻近,本文提出的方法我认为实际上是增强了检索器对内容相似文档的区分能力。该方法增强了标准的BERT风格编码器,增加了额外的条件,提供了关于邻近文档的聚合文档级信息。总体而言,上下文架构在不同规模的数据集和任务上均取得了显著的性能提升,特别是在领域外数据集上表现尤为突出。:在包含过滤的情况下,较小的集群大小明显优于较大的批处理大小。原创 2024-10-28 17:21:47 · 606 阅读 · 0 评论 -
LongRAG:一种用于长上下文问答的双视角检索增强生成范式
结果表明,信息提取器和CoT引导过滤器的联合策略(E&F)在所有数据集上均表现最佳,显著提高了系统的性能。这篇论文提出了LongRAG,一种通用的、双视角的、鲁棒的基于LLMs的RAG系统范式,用于解决LCQA任务中的全局信息和事实细节识别问题。:E&F组件在不同数据集上的迁移性分析表明,使用低成本本地模型(如ChatGLM3-6B-32k)替代昂贵的在线API资源,仍能取得优异的性能。其中,Ig表示全局信息,Id表示事实细节,LLM表示LLM模型,promptg表示生成器的提示模板。原创 2024-10-25 10:34:20 · 816 阅读 · 0 评论 -
【无标题】
这篇论文系统研究了长上下文RAG中的推理扩展问题,提出了DRAG和IterDRAG两种策略,并通过广泛的实验验证了其有效性。这篇论文提出了两种推理扩展策略:演示基础RAG(DRAG)和迭代演示基础RAG(IterDRAG),用于解决长上下文RAG中的推理扩展问题。系统地研究了长上下文 RAG 的推理扩展,为此引入了两种扩展策略 DRAG 和 IterDRAG,以有效地扩展推理计算。:通过广泛的实验,作者发现RAG性能随着有效上下文长度的增加而近似线性增长,这一关系被称为RAG的推理扩展定律。原创 2024-10-24 10:10:04 · 730 阅读 · 0 评论 -
【LLM论文日更】| BGE经典论文-CPACK
C-Pack包括C-MTEB、C-MTP和BGE,并通过优化的训练方法实现了显著的性能提升。通用对比学习在C-MTP(未标记)上进行,通过对比成对文本和其负样本进行学习。:C-MTP由两部分组成:C-MTP(未标记)和C-MTP(标记)。总体来看,C-MTP(未标记)提供了大规模的无标签数据,而C-MTP(标记)则提供了高质量的标注数据,两者共同用于训练和微调文本嵌入模型。C-MTP(Chinese Massive Text Pairs)训练数据集由两部分组成:C-MTP(未标记)和C-MTP(标记)。原创 2024-10-10 16:11:58 · 1318 阅读 · 0 评论 -
【LLM论文日更】| 通过指令调整进行零样本稠密检索的无监督文本表示学习
首先,设计两个指令任务,即问题生成和关键词总结,通过提示预训练LLM生成每个给定语料库的合成问题和关键词。然后,获取新生成的合成问题和关键词以及语料库的嵌入,并将它们的加权平均值作为增强的语料库表示。:与其他语料库表示增强方法(如docTTTTTquery)相比,本文方法在嵌入级别上的增强效果更显著,且自指令调优模型的表现优于其监督表示生成模型。随着模型规模的增加,性能也得到了提升。:研究了四种不同的权重方法,结果表明手动加权方法优于BERTScore方法,且指令调优后的模型表现更好。原创 2024-10-02 16:02:14 · 718 阅读 · 0 评论 -
【LLM论文日更】| GRIT如何统一文本生成与嵌入
与其他开放模型相比,本文生成的 GRITLM 7B 在大规模文本嵌入基准 (MTEB) 上树立了新的技术水平,并且在一系列生成任务上优于同等规模的所有模型。通过进一步扩展,GRITLM 8X7B 的性能优于本文尝试过的所有开放生成语言模型,同时仍然是最好的嵌入模型之一。值得注意的是,我们发现 GRIT 仅匹配生成数据或嵌入数据的训练,因此我们可以在不损失性能的情况下统一两者。其中,f是GRITLM参数化的模型,τ 是温度超参数,σ 对每个输出进行池化后应用余弦相似度,q和 d 分别是查询和文档样本。原创 2024-09-23 12:40:07 · 1027 阅读 · 0 评论 -
【LLM论文日更】| 俄罗斯套娃嵌入模型
适应性图像检索也达到了效率和精度的权衡,16维度做粗排,2048维度做精排的准确率已经和直接使用2048维度做排序的精度还高,但计算量大幅减小。:为了提高效率,MRL采用了权重绑定技术,即所有线性分类器的权重相同,从而减少内存成本。每个嵌入的前几个维度是一个信息丰富的低维向量,随着维度的增加,表示逐渐变得粗糙。本文将MRL/MRL-E模型与单独训练的低维表征(FF),SVD分解,子网络[2]方法进行了比较。16-32-64-128-256-2048 对前200-100-50-25-10个样本的。原创 2024-09-22 22:48:46 · 2534 阅读 · 0 评论 -
【LLM论文日更】| LLM2Vec揭秘大型语言模型的文本嵌入潜能
在Massive Text Embeddings Benchmark(MTEB)上,LLM2Vec转换的模型在无监督模型中达到了新的最佳性能,最佳模型的得分为56.8。结合监督对比学习后,Meta-LLaMA-3-8B模型在仅使用公开数据训练的模型中达到了最新的最佳性能。这篇论文提出了LLM2Vec,一种简单的无监督方法,可以将任何解码器仅的LLM转换为通用文本编码器。3. 通过分析模型在不同层级的表示变化,发现Mistral-7B模型在无需任何训练的情况下就可以很好地处理双向注意力。原创 2024-09-10 10:08:49 · 1143 阅读 · 0 评论 -
可选择的反思指令微调
在Huggingface Open LLM Leaderboard上,sRecycled WizardLM 7B模型在不同数据量下的表现均优于大多数现有模型,表明其数据质量的高水平。:在少量数据场景下,sRecycled WizardLM 7B模型在仅使用不到1,000个选择性数据时,表现优于大多数现有7B模型,进一步验证了数据质量的高水平。这里的IFD分数衡量了给定指令x下,模型生成响应y的难度。其中,x1 是更新后的指令y1 是原始响应,res,1,... 是响应反射标准,g 是教师模型。原创 2024-09-07 15:36:37 · 1080 阅读 · 0 评论 -
PromptReps: 解锁LLM的检索力量
该方法通过提示大型语言模型(LLMs)生成查询和文档的表示,用于有效的文档检索。这篇论文的核心贡献是提出了一种新的零样本文档检索方法,该方法利用LLMs的提示能力来生成用于检索的密集和稀疏表示,而无需额外的训练。: 在BEIR数据集上,PromptReps在不使用任何额外训练的情况下,通过提示生成的密集和稀疏表示,取得了与训练有素的LLM嵌入方法相似或更高的检索效果。: PromptReps是一种简单而有效的方法,它通过提示LLMs生成密集和稀疏表示,用于零样本文档检索,无需任何额外的无监督或有监督训练。原创 2024-09-04 12:46:03 · 884 阅读 · 0 评论 -
【LLM大模型论文日更】| QAEA-DR:一个用于密集检索的统一文本增强框架
具体来说,定理III.3和定理III.4分别说明了在理想条件下,生成的文本向量要么保持要么提高检索过程的保真度。具体来说,生成的文本向量在保持或提高目标文本与查询向量的相似度的同时,降低非目标文本与查询向量的相似度。:定理III.4证明了将问答对向量和事件向量结合到文本增强框架中,比仅使用一种类型的生成文本向量更能有效提高检索保真度。:在检索过程中,查询向量在扩展后的向量数据库中寻找相似度最高的向量。生成的向量由于信息密度高,与查询向量的相似度高于原始文本向量,从而提高检索性能。原创 2024-08-23 10:56:28 · 1164 阅读 · 0 评论 -
【LLM大模型论文日更】| 格式胜过内容:揭示大型语言模型的提示效应
然后将两种示例结合起来,形成一个完整的示例集。:设计一个新的集成提示模板,在提示模板中添加示例级指令,描述后续示例具有相似的词或相似的句法。:计算了不同提示部分之间的注意力权重,发现LLMs在处理描述性名词时的注意力权重并不一定大于随机名词,表明LLMs可能并不真正关心描述的实际内容。综上所述,集成提示框架通过其特定的格式,能够更有效地引导LLMs的注意力,从而提高其在各种NLP任务中的性能。:通过计算不同提示部分的注意力权重,发现LLMs在处理描述时并不关心描述的实际内容,而更关注提示的格式。原创 2024-08-21 15:03:29 · 1038 阅读 · 0 评论 -
【LLM大模型论文日更】| LLMs在预训练和微调阶段的性能变化和它们之间的相互关系
研究目的:探索预训练与微调之间的关系,特别是它们是如何共同影响模型最终性能的。研究方法:通过在18个数据集上微调多个预训练模型的中间检查点来进行实验分析。主要发现持续的预训练能够在微调后以一种不明显的方式提升模型性能。这句话的意思是,在大型语言模型(LLMs)的预训练阶段,即使模型在预训练过程中对某些任务的性能提升不明显,持续进行预训练仍然可以在后续的微调阶段带来潜在的性能提升。换句话说,原创 2024-08-18 14:05:57 · 1014 阅读 · 0 评论 -
【LLM大模型论文日更】| 大型语言模型用于模拟搜索用户行为
由于成本效益和可再现性方面的优势,用户模拟已成为信息检索系统面向用户评估的一种有前景的解决方案。然而,准确模拟用户的搜索行为长期以来一直是一个挑战,因为用户在搜索中的行为非常复杂,并受到学习、推理和规划等复杂的认知过程驱动。最近,大型语言模型(LLM)在模拟人类智能方面展示出了显著的潜力,并被用于构建各种任务的自主代理。然而,利用LLM模拟搜索行为的潜力尚未完全探索。在本文中,我们介绍了一种基于LLM的用户搜索行为模拟器,称为USimAgent。原创 2024-08-16 17:52:45 · 1341 阅读 · 0 评论 -
稠密检索的规模艺术:模型、数据与性能的精准匹配
Scaling Laws已经在广泛的任务中被观察到,特别是在语言生成中。先前的研究发现,大型语言模型的性能和模型、数据集的大小存在可预测的模式关系。这有助于我们有效地设计训练策略,特别是在大规模训练越来越需要丰富的计算资源的时候。然而,在密集检索中,这种Scaling Laws尚未得到充分的探索。在本研究中,我们研究了Scaling如何影响密集检索模型的性能。我们使用不同参数量来实现密集检索模型,并使用不同数量的标注数据来训练它们。本文使用对比熵作为评价指标,与离散排序指标相比,它是连续的,因此可以。原创 2024-08-15 21:18:57 · 1112 阅读 · 0 评论 -
为什么使用大模型API时,output token 的价格比 input token 更贵?
存在一个理想的操作与数据比率(ops:bytes ratio),这决定了每读取一份数据(例如FP16/BF16格式)应该执行的FLOPs数量。:输入token和输出token在内存中的占用,例如QKV(Query, Key, Value)矩阵的大小,基本上是相似的。但是,输出token可能采用KV Cache的形式,这是一种优化技术,用于存储和重用之前计算的键值对,以减少重复计算。:对于输入和输出相同数量的token,模型的浮点运算次数(FLOPs)大致相同,大约是2ND,其中N代表模型的参数量。原创 2024-08-13 15:13:47 · 2532 阅读 · 0 评论 -
自蒸馏技术在语言模型微调中的桥梁作用
大型语言模型(LLMs)在自然语言处理(NLP)领域取得了突破性进展,但微调这些模型以适应特定任务时,常常难以平衡性能和保持通用指令遵循能力。在本文中,认为任务数据集和LLM之间的分布差距是主要原因。论文提出自蒸馏微调(SDFT)方法,通过模型自身生成的数据集来指导微调,以减少灾难性遗忘(catastrophic forgetting)并保持模型的有用性和安全性。实验结果表明SDFT在多个基准测试中有效,与普通微调相比,SDFT在下游任务上取得了可比或更优越的性能。原创 2024-08-05 19:08:25 · 1091 阅读 · 0 评论 -
超越标注:合成数据引领下的文本嵌入技术革新
Doc2query(Nogueira 等人,2019)、InPars(Bonifacio 等人,2022)和 Promptagator(Dai 等人,2022)生成未标记文档的综合查询,然后将其用于文档扩展或模型训练。SGPT (Muennighoff, 2022)、GTR (Ni et al., 2022b) 和 Udever (Zhang et al., 2023a) 凭经验证明了文本嵌入的缩放规律,但它们的性能仍然落后于 E5 (Wang等人,2022b)和 BGE(Xiao 等人,2023)。原创 2024-08-04 19:41:51 · 726 阅读 · 0 评论 -
穿越文字的迷宫:探索语言模型作为世界模拟器的潜力与局限
领域:世界模型机构:亚利桑那大学等多机构发表: ACL 2024这篇论文的标题是《Can Language Models Serve as Text-Based World Simulators?》,作者们探讨了当前的语言模型(Language Models,简称LMs)是否能够作为文本基础的世界模拟器使用。文本基础的世界模拟器是指能够通过文本描述来正确预测动作如何改变不同世界状态的系统,从而避免大量手动编码的需求。原创 2024-07-13 16:32:31 · 562 阅读 · 0 评论 -
LLM See, LLM Do
研究背景:合成数据的广泛使用引发了关于数据生成模型如何通过蒸馏数据影响其他大型语言模型的新问题。研究内容:本文系统研究了合成数据整合对模型内部偏见、校准和生成文本属性及偏好的影响。主要发现:模型对某些属性异常敏感,即使合成数据提示看起来“中性”。研究问题:是否可以利用数据生成过程明确引导模型在测试时具备我们想要的属性。提出概念:提出了“主动继承”(active inheritance),即有意识地根据非微分目标约束合成数据。原创 2024-07-09 16:33:26 · 759 阅读 · 0 评论 -
幻觉侦探:小模型有大智慧
背景:大型语言模型(LLMs)在生成文本时可能会出现幻觉(hallucinations),即看似合理但实际上没有事实支持的内容。这对于LLMs在现实世界的应用构成了挑战。现有方法:现有研究依赖于强大的闭源LLMs(如GPT-4)进行幻觉检测。HaluAgent:本文提出的HaluAgent框架允许相对较小的LLMs(例如Baichuan2-Chat 7B)主动选择适当的工具来检测多种类型的幻觉,如文本、代码和数学表达式。方法。原创 2024-07-01 13:37:59 · 1214 阅读 · 0 评论 -
UNIGEN框架下的文本数据集创造术
背景: 大型语言模型(如 GPT-4 和 Llama3)通过生成高质量合成数据,减少了对昂贵人工生成数据集的依赖,对各个领域产生了显著影响。挑战: 现有生成框架在泛化性、可控性、多样性和真实性方面存在挑战。泛化性 (Generalization): 指数据生成模型能够产生广泛适用于多种任务和场景的数据。具有高泛化性的数据集可以帮助模型学习到更广泛和通用的特征,从而在不同的应用中表现更好,减少对特定数据分布的依赖。可控性 (Controllability)原创 2024-06-30 08:47:59 · 2426 阅读 · 0 评论 -
长上下文模型在知识长卷中的阅读之旅
LCLMs 潜力:长上下文语言模型有潜力通过原生处理整个信息语料库来革新我们处理任务的方式。优势:使用 LCLMs 可以提高用户友好性,减少对专业工具知识的需要,提供健壮的端到端建模,减少复杂流程中的级联错误,并允许在整个系统中应用高级提示技术。LOFT 基准:引入了 LOFT(Long-Context Frontiers),一个针对需要长达数百万token上下文的现实世界任务的基准,用于评估 LCLMs 在上下文检索和推理方面的性能。研究发现。原创 2024-06-29 22:33:39 · 660 阅读 · 0 评论 -
Gist:探索语言模型的高效提示压缩之道
问题陈述:语言模型(LMs)的多任务能力主要通过提示(prompting)来实现,但提示占用了宝贵的输入上下文窗口空间,且重复编码相同的提示在计算上是低效的。现有方法:微调(finetuning)和蒸馏(distillation)方法可以在不使用提示的情况下专门化语言模型,但需要针对每个任务重新训练模型。提出的解决方案:本文提出了“gisting”方法,通过训练语言模型将提示压缩成更小的“gist”令牌集合,这些令牌可以被缓存和重用,以提高计算效率。方法。原创 2024-06-28 09:29:26 · 794 阅读 · 0 评论 -
主动式语言代理在现实世界规划中的前瞻性策略
背景:大型语言模型(LLMs)的发展增强了语言代理在多样化现实世界场景中的规划能力。问题:尽管有进步,但LLMs在理解模糊用户指令进行推理和决策的能力仍有待探索。新任务:提出了一种名为“Proactive Agent Planning”的新任务,要求语言代理基于用户-代理对话和代理-环境交互预测需要澄清的需求,调用外部工具收集有效信息,并生成计划以满足用户需求。新基准数据集:建立了一个新的基准数据集“Ask-before-Plan”。新框架。原创 2024-06-25 18:58:50 · 786 阅读 · 0 评论 -
调谐知识检索的和声:通过检索器集成框架优化大型语言模型的一致性
论文:《Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models》详细探讨了检索增强型大型语言模型(RALMs)中的检索器(Retriever)不一致性问题,并提出了一种解决方案。原创 2024-06-24 14:48:00 · 652 阅读 · 0 评论 -
鸡尾酒效应:LLM时代的信息检索新基准
人大高瓴联合华为诺亚和中科院计算所提出了一个全新的信息检索(IR)基准测试——Cocktail,它特别针对大型语言模型(LLM)生成的内容(AIGC)对IR系统的影响进行了评估。原创 2024-06-24 10:57:57 · 622 阅读 · 0 评论 -
NV-Embed重塑文本嵌入艺术
目的:提高大型语言模型(LLM)在文本嵌入任务上的性能。方法:提出了NV-Embed模型,包含新架构和训练过程。结果:使用潜在注意力层和两阶段对比指令调整方法,在多个基准测试上取得优异成绩。开源:模型将在Hugging Face上开源。原创 2024-06-23 11:17:27 · 1094 阅读 · 0 评论 -
多智能体协作中的小世界现象与协作扩展法则
清华和北邮的研究人员提出了一种新型的多智能体协作网络(MACNET),通过使用有向无环图(DAG)来组织智能体之间的互动和推理过程。实验结果表明,MACNET在不同的网络拓扑结构下都能有效地提高智能体之间的协作能力,并且发现了“小世界”协作现象,即具有小世界特性的拓扑结构能够带来更优越的性能。研究者发现,在这些结构中,具有小世界特性的网络拓扑展现出了更高效的协作性能。🚀协作扩展法则的发现: 论文中一个重要的发现是协作扩展法则,它描述了随着智能体数量的增加,解决方案的质量如何遵循对数增长模式。原创 2024-06-22 10:37:42 · 482 阅读 · 0 评论 -
RichRAG框架如何为复杂查询编织丰富回答
问题陈述:传统的检索增强生成(RAG)模型主要关注具有清晰用户意图和简洁答案的问题场景。然而,用户经常提出宽泛、开放式的查询,这些查询具有多样化的子意图,需要丰富和长形式的答案来覆盖多个相关方面。方法:提出了一个新的RAG框架,名为RichRAG。它包括一个子方面探索器来识别输入问题的潜在子方面,一个多方面检索器来构建与这些子方面相关的多样化外部文档候选池,以及一个生成式列表智能排名模块,用于为最终生成器提供最有价值的文档。结果。原创 2024-06-21 14:29:11 · 1300 阅读 · 0 评论 -
不只是笑话,是智慧!Chumor数据探索AI幽默
摘要: 论文指出,目前幽默数据集和评估主要集中在英语上,缺乏对非英语语言(如中文)文化细微差别的幽默理解资源。为了填补这一空白,作者构建了Chumor数据集,该数据集来源于中国的“弱智吧”(RZB)。结论: Chumor数据集为非英语幽默研究和提高LLMs对不同文化背景推理能力的研究提供了促进。作者与机构: 来自密歇根大学、卡内基梅隆大学和上海交通大学的研究人员。结果: 人类解释显著优于LLMs生成的解释。原创 2024-06-21 10:35:09 · 692 阅读 · 0 评论 -
镜中AI:自我知识评估与LLM的自我发现
此外,研究还发现,当模型的注意力机制与人类相似时,它们在自我知识任务上的表现会有所提高,但与人类相比,LLMs的注意力集中度仍然较低。研究团队通过模仿费曼的“如果我不能创造它,我就不理解它”的原则,设计了一系列测试,让模型在生成问题后再次回答这些问题,以此检验模型是否真正理解了它们所创造的内容。总结来说,这篇论文通过自我知识评估框架,为理解和提升LLMs和LMMs的能力提供了新的视角和方法,揭示了模型在自我理解方面的不足,并为未来的模型优化和评估提供了有价值的见解。原创 2024-06-20 14:13:26 · 426 阅读 · 0 评论