OptimaAI-优快云博客

原创【LLM论文日更】| 训练大型语言模型在连续潜在空间中进行推理

Coconut方法通过在传统CoT过程中引入一个简单的修改来实现潜在空间的推理。具体来说，Coconut将最后隐藏状态（即“连续思维”）直接作为下一个输入嵌入，而不是将其解码为词令。

2024-12-25 15:42:14 1122

原创【LLM论文日更】| One Token Can Help!

这篇论文提出了一种名为SPRING的新方法，通过引入可训练的虚拟标记来提升LLMs在RAG场景下的性能，同时保留其通用生成能力。SPRING方法通过引入可训练的虚拟标记来提升LLMs在RAG场景下的性能，同时保留其通用生成能力。：SPRING在不同数量的虚拟标记下表现出一致的性能提升，单个标记即可显著提升LLMs在RAG场景下的性能。通过这些策略，SPRING方法能够在不同数量的虚拟标记下保持一致的性能提升，显示出其可扩展性。：SPRING在不同检索器下的性能变化较小，显示出对检索器变化的鲁棒性。

2024-12-17 23:12:41 663

原创【LLM论文日更】 | 你的专家组合LLM是秘密的免费嵌入模型

具体来说，RW和HS嵌入的聚类结果显示出中等的重叠（AMI和NMI在0.29左右），但它们的Jaccard相似度和精确匹配率较低（分别为0.06和45.54%）。通过分析发现，MoE的路由权重（RW）补充了广泛使用的隐藏状态（HS）嵌入，提供了对输入语义的更深入理解。最近的研究表明，LLMs可以生成高质量的句子嵌入，但这些方法通常依赖于复杂的预训练和大规模的对比目标。总体而言，PromptEOL的使用显著增强了MOEE方法的稳定性和性能，使其在不确定性较高的提示条件下也能保持较高的嵌入质量。

2024-12-01 12:20:13 925

原创【LLM论文日更】| ChatGPT 可以评估人的性格吗？一个通用评估框架

通过将原始选项转换为{正确，一般正确，部分正确，既不正确也不错误，部分错误，一般错误，错误}，并基于CEI构建无偏提示。通过将原始选项转换为{正确，一般正确，部分正确，既不正确也不错误，部分错误，一般错误，错误}，并基于CEI构建无偏提示。：实验结果表明，ChatGPT和GPT-4在评估不同受试者的个性时表现出更高的灵活性，并且大多数受试者的评估结果一致。主题替换查询（SRQ）通过将原始问题中的主题（例如，“你”）替换为感兴趣的主题（例如，“男人”），使得LLMs能够分析特定受试者的个性。

2024-11-29 20:57:09 1066

原创【LLM论文日更】｜ Superfiltering：从弱到强的数据过滤，实现快速指令调整

实验结果表明，Superfiltering方法在使用5%数据的情况下，调优后的模型在成对比较、Huggingface Open LLM排行榜和AlpacaEval排行榜上的表现均优于或等同于使用全量数据的模型。：Superfiltering方法在使用5%数据的情况下，调优后的LLM在成对比较、Huggingface Open LLM排行榜和AlpacaEval排行榜上的表现均优于或等同于使用全量数据进行调优的模型。结果表明，Superfiltering方法在各种策略和模型下的表现均优于全量数据调优模型。

2024-11-25 14:56:11 716

原创【 LLM论文日更｜检索增强：大型语言模型是强大的零样本检索器】

通过将查询与其潜在答案候选结合，LameR在零样本大规模检索中表现出色，显著优于现有的零样本检索方法。未来的工作将探索使用较小的LLM进行查询增强，以进一步提高效率。：将开源LLMs（如LLaMA-2-chat-7B和-13B）集成到LameR框架中，LameR在DL19数据集上的表现优于HyDE配置和传统方法，展示了LameR与各种LLM骨干的适应性和效率。：进一步验证了更强LLM（如GPT-4）对LameR的提升效果，GPT-4在DL20数据集上的表现显著优于其他竞争者，甚至在全相关判断下也表现最佳。

2024-11-14 14:44:49 1009

原创【LLM论文日更】| 分而治之？你应该从哪一部分蒸馏你的LLM？

实验步骤包括：首先使用教师模型生成子问题，然后使用真实答案筛选高质量的子问题，最后使用这些子问题和真实答案来微调学生分解器模型。实验结果显示，蒸馏出的分解模型在性能和推理成本上表现优异，相比蒸馏解决能力，蒸馏分解能力更容易实现且效果更好。研究人员在多个数据集（如GSM8K、DROP和Bamboogle）上进行了实验，验证了蒸馏后的分解器在保持性能的同时，显著降低了推理成本。例如，在GSM8K数据集上，使用蒸馏后的Vicuna-13B模型作为分解器，相比使用原始GPT模型，推理成本降低了约70%。

2024-11-06 12:00:25 938

原创【LLM论文日更】LongReward：利用人工智能反馈改进长上下文大语言模型

未来的工作将致力于训练更小的长上下文奖励模型，探索更长序列和更大规模模型的长上下文对齐。总体而言，LongReward方法不仅显著提高了长上下文LLMs的性能，还增强了其遵循短指令的能力，并且可以与标准的短上下文DPO结合使用，不会影响各自方法的性能。：将LongReward与离线RL算法DPO结合，构建长上下文偏好数据集，并使用DPO算法对SFT模型进行微调，以增强其长上下文能力。：对于完整性，LLM从上下文的每个片段中提取与问题相关的信息，然后再次评估响应的完整性。同样采用CoT来增强评分的可靠性。

2024-10-31 16:16:31 1105 1

原创【LLM论文日更｜一种引入上下文的文档嵌入方法】

对应的问答也基本全是关于人口的统计结果信息，所以这里的邻近是指相似的查询和相似的文档，而不同于平常理解的那种“上下文”，这是逻辑上的相关，而本文的邻近文档是内容上的邻近，本文提出的方法我认为实际上是增强了检索器对内容相似文档的区分能力。该方法增强了标准的BERT风格编码器，增加了额外的条件，提供了关于邻近文档的聚合文档级信息。总体而言，上下文架构在不同规模的数据集和任务上均取得了显著的性能提升，特别是在领域外数据集上表现尤为突出。：在包含过滤的情况下，较小的集群大小明显优于较大的批处理大小。

2024-10-28 17:21:47 600

原创 LongRAG：一种用于长上下文问答的双视角检索增强生成范式

结果表明，信息提取器和CoT引导过滤器的联合策略（E&F）在所有数据集上均表现最佳，显著提高了系统的性能。这篇论文提出了LongRAG，一种通用的、双视角的、鲁棒的基于LLMs的RAG系统范式，用于解决LCQA任务中的全局信息和事实细节识别问题。：E&F组件在不同数据集上的迁移性分析表明，使用低成本本地模型（如ChatGLM3-6B-32k）替代昂贵的在线API资源，仍能取得优异的性能。其中，Ig表示全局信息，Id表示事实细节，LLM表示LLM模型，promptg表示生成器的提示模板。

2024-10-25 10:34:20 800

原创【无标题】

这篇论文系统研究了长上下文RAG中的推理扩展问题，提出了DRAG和IterDRAG两种策略，并通过广泛的实验验证了其有效性。这篇论文提出了两种推理扩展策略：演示基础RAG（DRAG）和迭代演示基础RAG（IterDRAG），用于解决长上下文RAG中的推理扩展问题。系统地研究了长上下文 RAG 的推理扩展，为此引入了两种扩展策略 DRAG 和 IterDRAG，以有效地扩展推理计算。：通过广泛的实验，作者发现RAG性能随着有效上下文长度的增加而近似线性增长，这一关系被称为RAG的推理扩展定律。

2024-10-24 10:10:04 725

原创【LLM论文日更】｜ BGE-M3E embedding模型

这篇论文提出的M3-Embedding模型在多语言检索、跨语言检索和多语言长文档检索任务中表现出色，展现了前所未有的多功能性和高效性。稀疏检索和多向量检索进一步提升了性能，最终的综合检索方法（All）表现最佳。：在MLDR和NarrativeQA数据集上的实验结果表明，M3-Embedding在长文档检索任务中表现出色，尤其是稀疏检索方法（Sparse）和多向量检索方法（Multi-vec）。：自知识蒸馏和多阶段训练的消融实验表明，自知识蒸馏显著提高了稀疏检索的性能，多阶段训练则进一步提升了整体检索质量。

2024-10-10 16:15:38 1200

原创【LLM论文日更】｜ BGE经典论文-CPACK

C-Pack包括C-MTEB、C-MTP和BGE，并通过优化的训练方法实现了显著的性能提升。通用对比学习在C-MTP（未标记）上进行，通过对比成对文本和其负样本进行学习。：C-MTP由两部分组成：C-MTP（未标记）和C-MTP（标记）。总体来看，C-MTP（未标记）提供了大规模的无标签数据，而C-MTP（标记）则提供了高质量的标注数据，两者共同用于训练和微调文本嵌入模型。C-MTP（Chinese Massive Text Pairs）训练数据集由两部分组成：C-MTP（未标记）和C-MTP（标记）。

2024-10-10 16:11:58 1309

原创【LLM论文日更】| 通过指令调整进行零样本稠密检索的无监督文本表示学习

首先，设计两个指令任务，即问题生成和关键词总结，通过提示预训练LLM生成每个给定语料库的合成问题和关键词。然后，获取新生成的合成问题和关键词以及语料库的嵌入，并将它们的加权平均值作为增强的语料库表示。：与其他语料库表示增强方法（如docTTTTTquery）相比，本文方法在嵌入级别上的增强效果更显著，且自指令调优模型的表现优于其监督表示生成模型。随着模型规模的增加，性能也得到了提升。：研究了四种不同的权重方法，结果表明手动加权方法优于BERTScore方法，且指令调优后的模型表现更好。

2024-10-02 16:02:14 709

原创【LLM论文日更】| GRIT如何统一文本生成与嵌入

与其他开放模型相比，本文生成的 GRITLM 7B 在大规模文本嵌入基准 (MTEB) 上树立了新的技术水平，并且在一系列生成任务上优于同等规模的所有模型。通过进一步扩展，GRITLM 8X7B 的性能优于本文尝试过的所有开放生成语言模型，同时仍然是最好的嵌入模型之一。值得注意的是，我们发现 GRIT 仅匹配生成数据或嵌入数据的训练，因此我们可以在不损失性能的情况下统一两者。其中，f是GRITLM参数化的模型，τ 是温度超参数，σ 对每个输出进行池化后应用余弦相似度，q和 d 分别是查询和文档样本。

2024-09-23 12:40:07 1001

原创【LLM论文日更】| 俄罗斯套娃嵌入模型

适应性图像检索也达到了效率和精度的权衡，16维度做粗排，2048维度做精排的准确率已经和直接使用2048维度做排序的精度还高，但计算量大幅减小。：为了提高效率，MRL采用了权重绑定技术，即所有线性分类器的权重相同，从而减少内存成本。每个嵌入的前几个维度是一个信息丰富的低维向量，随着维度的增加，表示逐渐变得粗糙。本文将MRL/MRL-E模型与单独训练的低维表征（FF），SVD分解，子网络[2]方法进行了比较。16-32-64-128-256-2048 对前200-100-50-25-10个样本的。

2024-09-22 22:48:46 2511

原创【LLM论文日更】| LLM2Vec揭秘大型语言模型的文本嵌入潜能

在Massive Text Embeddings Benchmark（MTEB）上，LLM2Vec转换的模型在无监督模型中达到了新的最佳性能，最佳模型的得分为56.8。结合监督对比学习后，Meta-LLaMA-3-8B模型在仅使用公开数据训练的模型中达到了最新的最佳性能。这篇论文提出了LLM2Vec，一种简单的无监督方法，可以将任何解码器仅的LLM转换为通用文本编码器。3. 通过分析模型在不同层级的表示变化，发现Mistral-7B模型在无需任何训练的情况下就可以很好地处理双向注意力。

2024-09-10 10:08:49 1127

原创可选择的反思指令微调

在Huggingface Open LLM Leaderboard上，sRecycled WizardLM 7B模型在不同数据量下的表现均优于大多数现有模型，表明其数据质量的高水平。：在少量数据场景下，sRecycled WizardLM 7B模型在仅使用不到1,000个选择性数据时，表现优于大多数现有7B模型，进一步验证了数据质量的高水平。这里的IFD分数衡量了给定指令x下，模型生成响应y的难度。其中，x1 是更新后的指令y1 是原始响应，res,1,... 是响应反射标准，g 是教师模型。

2024-09-07 15:36:37 1063

原创 PromptReps: 解锁LLM的检索力量

该方法通过提示大型语言模型（LLMs）生成查询和文档的表示，用于有效的文档检索。这篇论文的核心贡献是提出了一种新的零样本文档检索方法，该方法利用LLMs的提示能力来生成用于检索的密集和稀疏表示，而无需额外的训练。：在BEIR数据集上，PromptReps在不使用任何额外训练的情况下，通过提示生成的密集和稀疏表示，取得了与训练有素的LLM嵌入方法相似或更高的检索效果。： PromptReps是一种简单而有效的方法，它通过提示LLMs生成密集和稀疏表示，用于零样本文档检索，无需任何额外的无监督或有监督训练。

2024-09-04 12:46:03 876

原创【LLM大模型论文日更】| QAEA-DR：一个用于密集检索的统一文本增强框架

具体来说，定理III.3和定理III.4分别说明了在理想条件下，生成的文本向量要么保持要么提高检索过程的保真度。具体来说，生成的文本向量在保持或提高目标文本与查询向量的相似度的同时，降低非目标文本与查询向量的相似度。：定理III.4证明了将问答对向量和事件向量结合到文本增强框架中，比仅使用一种类型的生成文本向量更能有效提高检索保真度。：在检索过程中，查询向量在扩展后的向量数据库中寻找相似度最高的向量。生成的向量由于信息密度高，与查询向量的相似度高于原始文本向量，从而提高检索性能。

2024-08-23 10:56:28 1150

原创【LLM大模型论文日更】| 格式胜过内容：揭示大型语言模型的提示效应

然后将两种示例结合起来，形成一个完整的示例集。：设计一个新的集成提示模板，在提示模板中添加示例级指令，描述后续示例具有相似的词或相似的句法。：计算了不同提示部分之间的注意力权重，发现LLMs在处理描述性名词时的注意力权重并不一定大于随机名词，表明LLMs可能并不真正关心描述的实际内容。综上所述，集成提示框架通过其特定的格式，能够更有效地引导LLMs的注意力，从而提高其在各种NLP任务中的性能。：通过计算不同提示部分的注意力权重，发现LLMs在处理描述时并不关心描述的实际内容，而更关注提示的格式。

2024-08-21 15:03:29 1019

原创【LLM大模型论文日更】| LLMs在预训练和微调阶段的性能变化和它们之间的相互关系

研究目的：探索预训练与微调之间的关系，特别是它们是如何共同影响模型最终性能的。研究方法：通过在18个数据集上微调多个预训练模型的中间检查点来进行实验分析。主要发现持续的预训练能够在微调后以一种不明显的方式提升模型性能。这句话的意思是，在大型语言模型（LLMs）的预训练阶段，即使模型在预训练过程中对某些任务的性能提升不明显，持续进行预训练仍然可以在后续的微调阶段带来潜在的性能提升。换句话说，

2024-08-18 14:05:57 996

原创【LLM大模型论文日更】| 大型语言模型用于模拟搜索用户行为

由于成本效益和可再现性方面的优势，用户模拟已成为信息检索系统面向用户评估的一种有前景的解决方案。然而，准确模拟用户的搜索行为长期以来一直是一个挑战，因为用户在搜索中的行为非常复杂，并受到学习、推理和规划等复杂的认知过程驱动。最近，大型语言模型（LLM）在模拟人类智能方面展示出了显著的潜力，并被用于构建各种任务的自主代理。然而，利用LLM模拟搜索行为的潜力尚未完全探索。在本文中，我们介绍了一种基于LLM的用户搜索行为模拟器，称为USimAgent。

2024-08-16 17:52:45 1298

原创稠密检索的规模艺术：模型、数据与性能的精准匹配

Scaling Laws已经在广泛的任务中被观察到，特别是在语言生成中。先前的研究发现，大型语言模型的性能和模型、数据集的大小存在可预测的模式关系。这有助于我们有效地设计训练策略，特别是在大规模训练越来越需要丰富的计算资源的时候。然而，在密集检索中，这种Scaling Laws尚未得到充分的探索。在本研究中，我们研究了Scaling如何影响密集检索模型的性能。我们使用不同参数量来实现密集检索模型，并使用不同数量的标注数据来训练它们。本文使用对比熵作为评价指标，与离散排序指标相比，它是连续的，因此可以。

2024-08-15 21:18:57 1100

原创【LLM大语言模型-RAG系列】第⼀部分 | 01

2024-08-14 21:32:07 247

原创【LLM大语言模型-开篇】LLM入门实践指南

"LLM入门实践指南"是一个通过代码实践，为大模型入门读者提供全面且较为深入的大模型技术视角的教程。

2024-08-14 21:24:35 359

原创为什么使用大模型API时，output token 的价格比 input token 更贵？

存在一个理想的操作与数据比率（ops:bytes ratio），这决定了每读取一份数据（例如FP16/BF16格式）应该执行的FLOPs数量。：输入token和输出token在内存中的占用，例如QKV（Query, Key, Value）矩阵的大小，基本上是相似的。但是，输出token可能采用KV Cache的形式，这是一种优化技术，用于存储和重用之前计算的键值对，以减少重复计算。：对于输入和输出相同数量的token，模型的浮点运算次数（FLOPs）大致相同，大约是2ND，其中N代表模型的参数量。

2024-08-13 15:13:47 2391

转载转载：LLM做Sentence Embedding的通用方案

最近在做RAG相关的项目，在做检索模型的时候，由于我的需求更偏向于主题检索且需要较大的通用性。现有的检索模型bge、m3e等更偏向于语义匹配，即使针对主题做模型微调也没有很好的通用性，不能很好的完成需求。尝试直接使用LLM做Embedding，主要思想是将输入添加Prompt(将输入总结成一个词)，然后使用最后一个词的最后一层作为整个输入的Embedding。这里细读下面的2篇文章，并在中文的主题分类数据集上进行测试(这里使用公开数据集-科大讯飞的长文本分类)，之后希望能在项目中有较好的应用。

2024-08-06 14:31:07 217

原创自蒸馏技术在语言模型微调中的桥梁作用

大型语言模型（LLMs）在自然语言处理（NLP）领域取得了突破性进展，但微调这些模型以适应特定任务时，常常难以平衡性能和保持通用指令遵循能力。在本文中，认为任务数据集和LLM之间的分布差距是主要原因。论文提出自蒸馏微调（SDFT）方法，通过模型自身生成的数据集来指导微调，以减少灾难性遗忘（catastrophic forgetting）并保持模型的有用性和安全性。实验结果表明SDFT在多个基准测试中有效，与普通微调相比，SDFT在下游任务上取得了可比或更优越的性能。

2024-08-05 19:08:25 1060

原创超越标注：合成数据引领下的文本嵌入技术革新

Doc2query（Nogueira 等人，2019）、InPars（Bonifacio 等人，2022）和 Promptagator（Dai 等人，2022）生成未标记文档的综合查询，然后将其用于文档扩展或模型训练。SGPT (Muennighoff, 2022)、GTR (Ni et al., 2022b) 和 Udever (Zhang et al., 2023a) 凭经验证明了文本嵌入的缩放规律，但它们的性能仍然落后于 E5 (Wang等人，2022b）和 BGE（Xiao 等人，2023）。

2024-08-04 19:41:51 718

原创数据旋律与算法和谐：LLMs的微调交响

大型语言模型（LLMs）通过海量预训练token和参数展现出多样化的能力，如数学推理、代码生成和指令跟随等。这些能力可以通过监督式微调（SFT）进一步增强。研究者提出了四个研究问题，探讨模型性能与数据量、组成比例、模型大小和SFT策略等因素之间的关联。实验表明不同能力随数据量增加的扩展性不同，大型模型在相同数据量下通常表现更好（数学推理和代码生成随着数据量的增加而不断提高，而一般能力在大约一千个样本后趋于稳定）。数据组合在有限数据条件下可以增强不同能力，但在数据充足时可能导致性能冲突。

2024-07-18 16:20:59 1286

原创穿越文字的迷宫：探索语言模型作为世界模拟器的潜力与局限

领域：世界模型机构：亚利桑那大学等多机构发表: ACL 2024这篇论文的标题是《Can Language Models Serve as Text-Based World Simulators?》，作者们探讨了当前的语言模型（Language Models，简称LMs）是否能够作为文本基础的世界模拟器使用。文本基础的世界模拟器是指能够通过文本描述来正确预测动作如何改变不同世界状态的系统，从而避免大量手动编码的需求。

2024-07-13 16:32:31 554

原创 LLM See， LLM Do

研究背景：合成数据的广泛使用引发了关于数据生成模型如何通过蒸馏数据影响其他大型语言模型的新问题。研究内容：本文系统研究了合成数据整合对模型内部偏见、校准和生成文本属性及偏好的影响。主要发现：模型对某些属性异常敏感，即使合成数据提示看起来“中性”。研究问题：是否可以利用数据生成过程明确引导模型在测试时具备我们想要的属性。提出概念：提出了“主动继承”（active inheritance），即有意识地根据非微分目标约束合成数据。

2024-07-09 16:33:26 748

原创 Datawhale Al夏令营-基于星火大模型的群聊对话分角色要素提取挑战赛(1) baseline解读

主程序部分首先读取训练和测试数据，然后遍历测试数据并调用大模型获取提取的信息，检查和补全JSON格式，最终将结果写入输出文件中。定义星火认知大模型的URL、App ID、APIKey和APISecret。定义一个函数和异常类，用于检查和补全JSON格式，确保所有必要字段都存在且类型正确。定义一个函数，用于向星火认知大模型发送消息并获取回复。定义一个函数，用于从大模型输出的字符串中提取json。#ai夏令营#datawhale#夏令营#ai。用于与星火认知大模型进行交互，定义一个用于提取信息的提示模板。

2024-07-02 15:24:09 381

空空如也

空空如也