- 博客(78)
- 资源 (3)
- 收藏
- 关注
原创 基于 LangChain 搭建简单 RAG 系统
最后我们需要整合检索与生成,这里可以使用LangChain表达式语言(LangChain Execution Language,LCEL)来方便快捷地构建一个链,将检索到的文档、构建的输入 Prompt 以及模型的输出组合起来。随后是输入 Prompt 的设置,LangChain 的 Prompt Hub 中提供了多种预设的 Prompt 模板,适用于不同的任务和场景。构建好知识源后,接下来开始构建基础 RAG 系统。加载完成后,由于加载的文档可能过长,不适合模型的上下文窗口,需要将文档分割成合适的大小。
2025-04-04 17:52:10
368
原创 【大模型基础_毛玉仁】6.5 实践与应用--RAG、Agent、LangChain
RAG实践与应用、Agent、LangChain、LlamaIndex
2025-04-04 17:43:17
1416
原创 【大模型基础_毛玉仁】6.4 生成增强
比如,由于模型对训练数据中低频出现的知识掌握不足,而对更“流行”(高频)的知识掌握更好,因此实体的流行度作可以作为伪训练数据统计量。不过,RAG 中不同用户查询经常检索到相同的文本,而且常见的查询通常数量有限。该方案将问题的不断细化,然后分别对细化的问题进行检索增强,力求给出全面的答案,以覆盖用户需要的答案。然而,随着输入文本长度的增加,KV-cache 的 GPU 显存占用会显著增加,甚至超过模型参数的显存占用。去除冗余文本的方法通过对检索出的原始文本的词句进行过滤,从中选择出部分有益于增强生成的部分。
2025-04-03 22:45:03
839
原创 【大模型基础_毛玉仁】6.3 知识检索
接下来介绍几种常用于构建和管理向量数据库的软件库,它们支持上述的相似性索引算法。Faiss是由Meta AI Research开发的一个优化密集向量相似性搜索和聚类的库,提供多种索引算法,包括基于空间划分、量化和图的方法,部分算法支持GPU加速。Faiss专注于高效索引和搜索功能。但不包含数据存储、管理、分布式支持和安全性措施等功能。相比之下,向量数据库是一种更全面的解决方案,整合了相似度索引算法、数据存储、管理、分布式支持和安全性措施,适用于更复杂的RAG应用场景表 6.1: 常见的向量数据库。
2025-04-03 22:39:16
966
原创 【大模型基础_毛玉仁】6.2 检索增强生成(RAG)架构
不同之处在于,Atlas 在预训练和微调过程中,检索器和语言模型参数同步被更新,检索器学习向语言模型提供最相关的文档,而语言模型则学习如何利用这些文档来 改善其对查询的响应。这种微调的方式使得检索器能够在检索的同时,学习如何更有效地支持语言模型的需求,而语言模型则可以更好地适应并利用检索到的信息,以进一步提升 RAG 的性能。考虑到大语言模型的开源/闭源、微调成本等问题,RAG中的大语言模型可以是参数不可感知/调节的“黑盒”模型,也可以是参数可感知和微调的“白盒”模型。多个功能模块的软件系统。
2025-04-01 22:08:12
930
原创 【大模型基础_毛玉仁】6.1 检索增强生成(RAG)简介
检索增强生成RAG)旨在通过检索和整合外部知识来增强大语言模型生成文本的准确性和丰富性,其是一个集成了外部知识库、信息检索器、大语言模型等多个功能模块的系统。
2025-04-01 21:59:36
730
原创 【大模型基础_毛玉仁】5.5 模型编辑应用
考虑到重新训练模型的成本和时间不可接受,推测 Google 使用了模型编辑技术进行了紧急修复,快速纠正了模型的回答。为此,模型编辑技术如DPEN结合隐私神经元检测器和编辑器,定位并消除与隐私相关的参数,实现机器遗忘,有效保护隐私。相比传统的微调方法,它减少了对大量数据和计算资源的依赖,同时避免了遗忘原有知识的风险。这种方法具有高效、精准的特点,能够快速修复模型的特定问题或添加新知识,特别适用于大语言模型的即时更新场景。模型编辑通过微调少量参数,引导模型输出更积极内容,降低毒性风险,同时减少优化成本。
2025-03-31 23:23:34
876
原创 【大模型基础_毛玉仁】5.4 定位编辑法:ROME
为了确保准确性,L1(v) 旨在最大化 o 的概率,通过优化 v 使网络对所编辑的问题 prompt p 做出正确的预测,与计算 k∗ 时相同,也会在 p 之前拼接不同前缀文本;在恢复某一层Transformer处理s^(-1)的输出后,将后续的全连接前馈层(或注意力层)冻结为干扰状态,即隔离其计算,观察模型性能下降程度,从而明确各层的关键作用。为区分全连接前馈层和注意力层在 s^(−1) 处的因果效应中所起到的作用,并且验证全连接前馈层的主导性,ROME 对两种模型结构进行了阻断实验。
2025-03-31 23:08:37
1169
原创 【大模型基础_毛玉仁】5.2 模型编辑经典方法
通过特定训练程序,使模型在保持原有知识的同时。模型编辑可分为外部拓展法和内部修改法。:通过调整模型内部特定层或神经元,实现。
2025-03-28 20:22:23
246
原创 VSCode:Linux下安装使用
归档文件,可直接解压到任意目录。声明:资源可能存在第三方来源,若有侵权请联系删除!VSCode 提供预编译的。创建目标目录并解压(例如。
2025-03-28 20:17:02
469
原创 【大模型基础_毛玉仁】5.1 模型编辑简介
大语言模型存在偏见、毒性、知识错误清洗数据重训练:用清洗过的数据重新预训练,但成本过高,不划算。高效微调:通过高效微调技术注入新知识,但新知识样本少,易过拟合和灾难性遗忘。模型编辑:精准修正模型中的特定知识点。当前,模型编辑领域缺乏统一标准,不同研究对相关概念的定义存在差异。本书对这些概念进行了整合:将基于知识的模型编辑(KME, Knowledge Model Editing)和知识编辑(KE, Knowledge Editing)等概念统一为模型编辑(ME, Model Editing)。
2025-03-27 22:35:11
767
原创 【大模型基础_毛玉仁】4.5 实践与应用--参数高效微调PEFT
HF-PEFT特别适用于大模型,能够在消费级硬件上实现高性能,并且可以与模型量化技术兼容,进一步减少模型的内存需求。此外,HF-PEFT支持多种架构模型,包括Transformer和Diffusion,并允许用户手动配置,在自己的模型上启用PEFT。例如,TabLLM提出基于大语言模型的少样本表格数据分类框架,将表格数据序列化为自然语言字符串并附上分类描述提示模型,使用LoRA在少量带标签样本上微调,其性能在多个基准数据集上超过传统深度学习和梯度提升树等基线方法,展现出强大的小样本学习能力。
2025-03-27 22:29:16
774
原创 【大模型基础_毛玉仁】4.4 低秩适配方法
Biderman等人的研究表明,全量微调的秩显著高于LoRA的秩(10-100倍),增加LoRA的秩可以缩小与全量微调之间的性能差距。因此,在训练时,LoRA 涉及的更新参数数量为 r × (d + k),远 小于全量微调 d × k。LoRA在复杂下游任务上(如一些数学推理)与全量微调有性能差距,为弥补差距,LoRA变体方法从以下三方面改进:一是打破低秩瓶颈,二是动态秩分配,三是训练过程优化。,允许模型在保持总参数量不变的情况下,通过多次低秩更新累积成高秩状态,提升性能接近全秩训练。
2025-03-26 22:47:54
929
原创 【大模型基础_毛玉仁】4.3 参数选择方法
Child-tuning 通过梯度屏蔽减少计算负担和模型过拟合风险,但在子网络选择尤其是任务驱动变体中存在计算代价高的问题。总体而言,它在多种下游任务中表现出色,尤其在训练数据有限时,并且可以与其他 PEFT 方法集成以进一步提升性能。除 Child-tuning 外,其他基于学习的参数选择方法包括:Zhao 等人引入与模型权重相关的二值矩阵,通过阈值函数生成掩码并在反向传播中更新。Fish-Dip 使用 Fisher 信息计算掩码,且每个训练周期动态重新计算。
2025-03-26 22:40:11
820
原创 【大模型基础_毛玉仁】4.2 参数附加方法
实际应用中,输入Transformer前需经多层感知机(MLP)重参数化,训练参数包括MLP和前缀矩阵,训练后丢弃MLP参数,仅保留前缀参数。通过代理微调,将小模型的知识以解码时约束的方式迁移到大模型中,节省计算成本,且适用于黑盒模型。在微调大语言模型时,面临模型参数庞大(如LLaMA最大模型有70B参数)和无法访问模型权重(黑盒模型)的问题。若要结合多任务知识,可“该阶段,语言模型的参数以及 N 个适配器的参数被固定,仅微调 AdapterFusion 模块的参数。
2025-03-25 22:35:41
957
原创 【大模型基础_毛玉仁】4.1 参数高效微调简介
大语言模型在垂直领域适配时,上下文学习和指令微调虽是有效途径但存在不足。为此,参数高效微调PEFT)技术出现。本节先回顾前两者并分析其局限,再介绍PEFT概念及优势,最后分类讲解主流PEFT方法,包括参数附加、选择和低秩适配,阐述其原理和代表性工作。
2025-03-25 22:27:43
1711
原创 【大模型基础_毛玉仁】3.5 Prompt相关应用
C3是最早使用大语言模型进行零样本Text-to-SQL的方法,其核心是Prompt工程设计,包括三个关键部分:清晰提示、提示校准和一致输出,分别优化模型输入、校准偏差和稳定输出。为应对模型固有偏差,C3采用提示校准策略,利用包含历史对话的上下文提示,将先验知识纳入模型,通过设定模型为SQL专家角色并引导其遵循预设提示,有效校准偏差。在模型输出端,C3采用输出校准,应用Self-Consistency方法对多种推理路径采样,选择最一致的答案,增强输出稳定性,保持SQL查询一致性。
2025-03-22 19:43:16
759
原创 【大模型基础_毛玉仁】3.4 Prompt 技巧
明确指定输出格式:在Prompt中指出模型应使用的格式,如“请以JSON格式返回结果”,并选择广泛接受且易于处理的格式(如JSON、CSV),便于解析和数据交换。,其内容的多样性和相关性能够提升模型的理解和回答准确率,可以包括与问题直接相关的背景信息、具体的演示示例,或是对话的连续性内容。,要求上下文信息必须与问题紧密相关,避免包含冗余或不必要的信息,直接指向任务的核心,减少模型在处理信息时的混淆和误解。,收集更多数据、例证或选项,帮助用户获得更广泛的视角,增加对话题的理解,适用于需要全面了解主题的场景。
2025-03-22 19:38:13
1194
原创 【大模型基础_毛玉仁】2.5 基于 Decoder-only 架构的大语言模型 -- GPT和LLaMa模型介绍
【大模型基础_毛玉仁】2.5 基于 Decoder-only 架构的大语言模型 -- GPT和LLaMa模型介绍
2025-03-16 18:36:52
1530
原创 Git:速查手册
远程仓库(Remote Repository):托管在远程服务器上的仓库。暂存区(Stage/Index):用来临时存放未提交的内容,一般在.git目录下的index中。本地仓库(Repository):Git 在本地的版本库,仓库信息存储在.git这个隐藏目录中。:将本地改动的代码 rebase 到远程仓库的最新代码上,为了有一个干净、线性的提交历史。已提交(Committed):把暂存区的文件提交到本地仓库后的状态。(git add 的反向操作)已暂存(Staged):修改后已经保存到暂存区的文件。
2025-03-15 18:40:56
747
原创 【大模型基础_毛玉仁】2.4 基于 Encoder-Decoder 架构的大语言模型
【大模型基础_毛玉仁】2.4 基于 Encoder-Decoder 架构的大语言模型
2025-03-15 18:11:22
767
原创 Markdown:Mermaid 画图
Mermaid 是一款简单易用的图表生成库,可以帮助开发者快速生成流程图、时序图、甘特图等图表。通过本文的介绍,相信大家已经掌握了 Mermaid 的基本使用方法。声明:资源可能存在第三方来源,若有侵权请联系删除!
2025-03-13 22:02:12
861
原创 【大模型基础_毛玉仁】2.3 基于 Encoder-only 架构的大语言模型
【大模型基础_毛玉仁】2.3 基于 Encoder-only 架构的大语言模型
2025-03-13 21:51:35
801
原创 LLM 推理优化
由于块不需要在内存中是连续的,因此我们可以像在操作系统的虚拟内存中一样以更灵活的方式管理键和值:可以将块视为页面,将 token 视为字节,将序列视为进程。量化除了降低模型需要的显存外,最直接的收益就是降低了带宽使用率,所以从理论上来说,量化后的模型性能应该是成比例提升的,这个提升不仅体现在吞吐量上,也会体现在 Latency 上。从而在保证延迟的情况下,提高吞吐量。1.量化感知训练(QAT):在训练(一般是 sft 中)过程中,通过量化感知训练,让模型适应低精度的计算,从而保护模型的效果不受量化影响。
2025-03-12 21:22:29
712
原创 Conda:CondaSSLError
CondaSSLError: Encountered an SSL error. Most likely a certificate verification issue.
2025-03-09 14:19:42
468
原创 Conda:环境移植及更新 -- 使用Miniconda3或Anaconda3
Conda:环境移植及更新 -- 使用Miniconda3或Anaconda3
2025-03-09 14:15:25
610
原创 Token:SentencePiece论文阅读--大模型中主流的分词算法
Token:SentencePiece论文阅读--大模型中主流的分词算法
2025-03-08 15:27:37
865
1
MSP430数据手册+用户手册中英文
2020-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人