AI Echoes-优快云博客

原创大模型（LLMs）langchain

LangChain 可以轻松管理与语言模型的交互，将多个组件链接在一起，并集成额外的资源，例如 API 和数据库。texts = """天道酬勤”并不是鼓励人们不劳而获，而是提醒人们要遵循自然规律，通过不断的努力和付出来追求自己的目标。texts = """天道酬勤”并不是鼓励人们不劳而获，而是提醒人们要遵循自然规律，通过不断的努力和付出来追求自己的目标。也包括精神上的努力和思考，以及学习和适应变化的能力。开发人员可以为他们的用例选择合适的 LangChain 模型，并利用提供的组件来构建他们的应用程序。

2025-04-11 16:52:51 661

原创大模型（LLMs）RAG 优化策略 —— RAG-Fusion篇

大模型（LLMs）RAG 优化策略 —— RAG-Fusion篇它解决了RAG固有的限制，通过生成多个用户查询并重新排序结果。利用逆向排名融合和自定义向量评分加权进行综合、准确的搜索。RAG-Fusion旨在弥合用户明确询问与他们意图询问之间的差距，更接近于发现通常隐藏的变革性知识。RAG-Fusion的基础三元组与RAG相似，核心技术包括：然而，与RAG不同的是，RAG-Fusion通过几个额外的步骤区分自己——查询生成和结果重新排序。利用提示工程和自然语言模型拓宽搜索视野，提升结果质量。利用提示

2025-04-11 16:51:41 722

原创基于lora的llama2二次预训练

基于lora的llama2二次预训练一、为什么需要对 llama2 做基于lora的二次预训练?加入中文训练语料进行llama2的二次预训练，这样模型就可以增加支持中文输出的能力。二、基于lora的llama2二次预训练的目标是什么？在保持预训练模型权重不变的情况下，通过添加额外的网络层并仅训练这些新增的网络层参数，实现大模型的高效微调（peft）。三、基于lora的llama2二次预训练的思想是什么？思想：基于对模型本征维度（intrinsic dimension）的理解。“本征维度”是指模型中

2025-04-10 09:56:09 616

原创大模型外挂知识库优化——如何利用大模型辅助召回？

用LLM根据用户query生成k个“假答案”。（大模型生成答案采用sample模式，保证生成的k个答案不一样。此时的回答内容很可能是存在知识性错误，因为如果能回答正确，那就不需要召回补充额外知识了对吧。不过不要紧，我们知识想通过大模型去理解用户的问题，生成一些“看起来”还不错的假答案）利用向量化模型，将生成的k的假答案和用户的query变成向量；将k+1个向量取平均：其中dk为第k个生成的答案，q为用户问题，f为向量化操作。利用融合向量v从文档库中召回答案。

2025-04-10 09:54:20 545

原创⼤模型（LLMs）基础

LLM（Large Language Model，⼤型语⾔模型）是指基于⼤规模数据和参数量的语⾔模型。

2025-04-09 20:36:00 1145

原创基于LLM+向量库的文档对话

一、基于LLM+向量库的文档对话基础面既然大模型微调不是将外部知识注入大模型的最优方案，那是否有其它可行方案？版本一。

2025-04-09 20:27:01 821

原创基于langchain RAG问答应用实战

'answer': '根据背景知识，藜麦常见虫害有象甲虫、金针虫、蝼蛄、黄条跳甲、横纹菜蝽、萹蓄齿胫叶甲、潜叶蝇、蚜虫、夜蛾等。也可以每亩用40%的辛硫磷乳油250毫升，加水1-2千克，拌细土20-25千克配成毒土，撒施地面翻入土中，防治地下害虫', metadata={'source': './藜.txt'}), Document(page_content='中期管理\n在藜麦8叶龄时，将行中杂草、病株及残株拔掉，提高整齐度，增加通风透光，同时，进行根部培土，防止后期倒伏。

2025-04-08 13:16:15 876

原创 LoRA 面试

LoRA 系列篇。

2025-04-08 13:14:34 943

原创大模型（LLMs）推理面试

其将模型参数，梯度和优化器状态分布至多个 GPU 上，而非像 DDP 一样，在每个 GPU 上保留完整副本。可以采用一些方法来处理模型输出的分布稀疏，例如使用softmax函数的温度参数调节来平滑输出分布，或者引入正则化技术，如Dropout，以减少模型对特定类别的过度依赖。混合精度训练的大致思路是在 forward pass 和 gradient computation 的时候使用 fp16 来加速，但是在更新参数时使用 fp32。接下来，我们用LLaMA-6B 模型为例估算其大致需要的内存。

2025-04-07 15:25:58 876

原创大模型外挂知识库优化——负样本样本挖掘篇

大模型外挂知识库优化——负样本样本挖掘篇。

2025-04-07 15:24:19 920

原创 transformers 操作面试

# hidden_states，包括13层，第一层即索引0是输入embedding向量，后面1-12索引是每层的输出向量。transformers 操作篇。

2025-04-06 19:59:55 559

原创大模型（LLMs）参数高效微调(PEFT) 面

增加额外参数，如：Prefix Tuning、Prompt Tuning、Adapter Tuning及其变体。选取一部分参数更新，如：BitFit。引入重参数化，如：LoRA、AdaLoRA、QLoRA。混合高效微调，如：MAM Adapter、UniPELT。并比较了不同的高效微调方法之间的差异；同时，还指出当前大多数高效微调方法存在的一些问题并给出了最佳实践。

2025-04-06 19:57:51 994

原创检索增强生成(RAG) 优化策略篇

检索增强生成(RAG) 优化策略篇。

2025-04-05 14:14:12 1345

原创大模型（LLMs）增量预训练篇

解释一下这里为什么这么关注训练前期，是因为在真实训练中，我们可能不一定会增强图中所示的 250B 这么多的 tokens，尤其是在模型参数很大的情况中。注：但，这种前提是「充分训练」，如果只看训练前期的话，使用更长的预热步数（黄色的线），无论是「上游任务」还是「下游任务」，模型的 Loss 都要比其他预热步数要低（下游学的快，上游忘的慢）。注：PS：这里提示我们，当预训练中遇到了训练中断需要继续训练时，我们应该在重新开始训练时将学习率恢复到中断之前的状态（无论是数值还是衰减率）。

2025-04-05 14:10:57 922

原创大模型外挂知识库优化——如何利用大模型辅助召回？

用LLM根据用户query生成k个“假答案”。（大模型生成答案采用sample模式，保证生成的k个答案不一样。此时的回答内容很可能是存在知识性错误，因为如果能回答正确，那就不需要召回补充额外知识了对吧。不过不要紧，我们知识想通过大模型去理解用户的问题，生成一些“看起来”还不错的假答案）利用向量化模型，将生成的k的假答案和用户的query变成向量；将k+1个向量取平均：其中dk为第k个生成的答案，q为用户问题，f为向量化操作。利用融合向量v从文档库中召回答案。

2025-04-04 21:29:57 1057

原创思维链 Chain-of-Thought（COT）

注：LLM解决问题的各种方法。每个矩形框代表一个thought，它是一个连贯的语言序列，是解决问题的中间步骤。ToT将任何问题定义为在树上的搜索，其中每个节点都是一个状态s=[x；z1i]，表示到目前为止具有输入和thought序列的部分解决方案。

2025-04-04 21:28:02 802

原创基于lora的llama2二次预训练

基于lora的llama2二次预训练一、为什么需要对 llama2 做基于lora的二次预训练?加入中文训练语料进行llama2的二次预训练，这样模型就可以增加支持中文输出的能力。二、基于lora的llama2二次预训练的目标是什么？在保持预训练模型权重不变的情况下，通过添加额外的网络层并仅训练这些新增的网络层参数，实现大模型的高效微调（peft）。三、基于lora的llama2二次预训练的思想是什么？思想：基于对模型本征维度（intrinsic dimension）的理解。“本征维度”是指模型中

2025-04-03 16:30:47 1037

原创检索增强生成(RAG) 优化策略

检索增强生成(RAG) 优化策略篇。

2025-04-03 16:28:56 1103

原创 Graph RAG 面 —— 一种基于知识图谱的大模型检索增强实现策略

eg: “保温大棚”与“保温杯”，尽管在语义上两者是存在相关性的，但在大多数场景下，这种通用语义（Embedding）下的相关性很高，进而作为错误的上下文而引入“幻觉”。这时候，可以利用领域知识的知识图谱来缓解这种幻觉。对于知识图谱，是否可以将其作为一路召回，提高检索的相关性，这个可以利用好知识图谱内部的知识。基于知识图谱召回的方法可以和其他召回方法一起融合，但这种方式在图谱规模很大时其实是有提升空间的。• 判断query和path中是否都包含数字 • 获取数字的Jaccrad的相似度。

2025-04-02 21:00:32 1078

原创大模型（LLMs）RAG 版面分析——表格识别方法篇

表格识别包括表格检测和表格结构识别两个子任务。

2025-04-02 20:58:12 1106

原创大模型（LLMs）参数高效微调(PEFT) 面试

增加额外参数，如：Prefix Tuning、Prompt Tuning、Adapter Tuning及其变体。选取一部分参数更新，如：BitFit。引入重参数化，如：LoRA、AdaLoRA、QLoRA。混合高效微调，如：MAM Adapter、UniPELT。并比较了不同的高效微调方法之间的差异；同时，还指出当前大多数高效微调方法存在的一些问题并给出了最佳实践。

2025-04-01 11:55:39 1039

原创如何使用 PEFT库中 LoRA？

当然以上的缩放方案依旧存在精度损失，以及当矩阵中存在outlier时，这个精度损失会被放大，例如当tensor中绝大部分取值在1以下，有几个值在100+，则缩放后，所有1以下的tensor信息都会被round抹去。# 对于新定义的这个Linear层，其本身继承了torch.nn.Linear，所以需要调用nn.Linear.train(self, mode)来控制一下自身原本参数的状态，并且此外它加入了lora_A和lora_B两部分额外的参数，这两部分本质上也是nn.Linear，也需要控制状态。

2025-04-01 11:53:55 879

原创 LLMs 激活函数

介绍一下 FFN 块计算公式？2个可训练权重矩阵，中间维度为 4h各LLMs 都使用哪种激活函数？4h = 4*4096 = 163842/3 * 4h = 10022 -> 1100811008/128 = 86

2025-03-31 13:13:10 152

原创大模型（LLMs）RAG 优化策略 —— RAG-Fusion篇

大模型（LLMs）RAG 优化策略 —— RAG-Fusion篇它解决了RAG固有的限制，通过生成多个用户查询并重新排序结果。利用逆向排名融合和自定义向量评分加权进行综合、准确的搜索。RAG-Fusion旨在弥合用户明确询问与他们意图询问之间的差距，更接近于发现通常隐藏的变革性知识。RAG-Fusion的基础三元组与RAG相似，核心技术包括：然而，与RAG不同的是，RAG-Fusion通过几个额外的步骤区分自己——查询生成和结果重新排序。利用提示工程和自然语言模型拓宽搜索视野，提升结果质量。利用提示

2025-03-31 13:11:11 423

原创 Python NPM Maven Docker 镜像源地址

临时使用指定镜像源安装包。# 临时使用指定镜像源安装包。为个人阿里云账号 ID）

2025-03-30 09:27:34 813

原创国内常用镜像源地址汇总及使用示例

本文档汇总了 Python、NPM 以及其他常用工具（如 Maven、Docker）的国内镜像源地址，并附上对应的使用示例，方便开发者在日常开发中快速配置和使用。

2025-03-30 09:26:06 1077

原创传统 Attention 存在哪些问题？

Falcon、PaLM、ChatGLM2-6B都使用了Multi-query Attention，但有细微差别。ChatGLM2，LLaMA2-34B/70B使用了Grouped query attention。在8B参数量规模，会有轻微的模型效果损失;在62B参数量规模，就不会损失模型效果。用并行公式替换了串行，提升了15%的训练速度。Falcon、PaLM都使用了该技术来加速训练。

2025-03-29 10:38:42 1224

原创 Layer normalization-方法篇一、Layer Norm 篇

RMS Norm 简化了 Layer Norm ，去除掉计算均值进行平移的部分。对比LN，RMS Norm的计算速度更快。效果基本相当，甚至略有提升。BLOOM在embedding层后添加layer normalization，有利于提升训练稳定性:但可能会带来很大的性能损失。Deep Norm可以缓解爆炸式模型更新的问题，把模型更新限制在常数，使得模型训练过程更稳定。

2025-03-29 10:35:44 478

原创大模型（LLMs）微调面

接乘以缩放系数 a 来减小浅层梯度更新值其实这块我有个自己的想法，e 和 a 是否也可以做衰减，随着训练过程逐渐减小，来避免loss spike的现。首先我们想象一下 ut 这个更新参数的变化趋势进入正态分布的稳态之后，理想的更新参数变化趋势应该是方差越来越小，所有更新参数逐渐向0靠近。进行预训练的时候会把这句话连接起来，用前面的词来预测后面出现的词。在计算损失的时候，问句中。点是随着轮数的增加，history 存储的对话会越来越多，导致 max_length 增加，从而出现爆显问题。

2025-03-28 16:07:06 874

原创大模型（LLMs）训练集面

主动学习有两个基本原则，在监督训练的时候，注意主动发现数据的两个方面，一个是数据多样性，另。多样性即为数据的去重，去重这件事的核心是相似度度量，现在的相似度度量方法大家用的比较多的是。数据的不确定性主要体现数据的质量筛选上，选取模型学的不那好的数据，模型没有把握的数据。通过这样的操作，就能把长得与已有数据不一样的数据给选出来了，并且这个过程是半监督的。监督学习中主动学习的两个基本原则是寻找多样性的数据，模型不确定性的数据，在寻找。这几个小技巧，学术上没有什么高深莫测的东西，都是实践中总结出来的好用的方法。

2025-03-28 15:23:53 623

空空如也

空空如也