自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(95)
  • 收藏
  • 关注

原创 大模型(LLMs)langchain

LangChain 可以轻松管理与语言模型的交互,将多个组件链接在一起,并集成额外的资源,例如 API 和数据库。texts = """天道酬勤”并不是鼓励人们不劳而获,而是提醒人们要遵循自然规律,通过不断的努力和付出来追求自己的目标。texts = """天道酬勤”并不是鼓励人们不劳而获,而是提醒人们要遵循自然规律,通过不断的努力和付出来追求自己的目标。也包括精神上的努力和思考,以及学习和适应变化的能力。开发人员可以为他们的用例选择合适的 LangChain 模型,并利用提供的组件来构建他们的应用程序。

2025-04-11 16:52:51 661

原创 大模型(LLMs)RAG 优化策略 —— RAG-Fusion篇

大模型(LLMs)RAG 优化策略 —— RAG-Fusion篇它解决了RAG固有的限制,通过生成多个用户查询并重新排序结果。利用逆向排名融合和自定义 向量评分加权进行综合、准确的搜索。RAG-Fusion旨在弥合用户明确询问与他们意图询问之间的差距,更接近于发现通常隐藏的变革性 知识。RAG-Fusion的基础三元组与RAG相似,核心技术包括:然而,与RAG不同的是,RAG-Fusion通过几个额外的步骤区分自己——查询生成和结果重新排 序。利用提示工程和自然语言模型拓宽搜索视野,提升结果质量。利用提示

2025-04-11 16:51:41 722

原创 基于lora的llama2二次预训练

基于lora的llama2二次预训练一、为什么需要 对 llama2 做 基于lora的二次预训练?加入中文训练语料进行llama2的二次预训练,这样模型就可以增加支持中文输出的能力。二、基于lora的llama2二次预训练 的目标是什么?在保持预训练模型权重不变的情况下,通过添加额外的网络层并仅训练这些新增的网络层参数,实现大模型的高 效微调(peft)。三、基于lora的llama2二次预训练 的思想是什么?思想:基于对模型本征维度(intrinsic dimension)的理解。“本征维度”是指模型中

2025-04-10 09:56:09 616

原创 大模型外挂知识库优化——如何利用大模型辅助召回?

用LLM根据用户query生成k个“假答案”。(大模型生成答案采用sample模式,保证生成的k个 答案不一样。此时的回答内容很可能是存在知识性错误,因为如果能回答正确,那就不需要召 回补充额外知识了对吧。不过不要紧,我们知识想通过大模型去理解用户的问题,生成一些“看 起来”还不错的假答案)利用向量化模型,将生成的k的假答案和用户的query变成向量;将k+1个向量取平均:其中dk为第k个生成的答案,q为用户问题,f为向量化操作。利用融合向量v从文档库中召回答案。

2025-04-10 09:54:20 545

原创 ⼤模型(LLMs)基础

LLM(Large Language Model,⼤型语⾔模型)是指基于⼤规模数据和参数量的语⾔模型。

2025-04-09 20:36:00 1145

原创 基于LLM+向量库的文档对话

一、基于LLM+向量库的文档对话 基础面既然 大模型微调 不是 将 外部知识 注入 大模型 的 最优方案,那是否有其它可行方案?版本一。

2025-04-09 20:27:01 821

原创 基于langchain RAG问答应用实战

'answer': '根据背景知识,藜麦常见虫害有象甲虫、金针虫、蝼蛄、黄条跳甲、横纹菜蝽、萹蓄齿胫叶甲、潜叶蝇、蚜虫、夜蛾等。也可以每亩用40%的辛硫磷乳油250毫升,加水1-2千克,拌细土20-25千克配成毒土,撒施地面翻入土中,防治地下害虫', metadata={'source': './藜.txt'}), Document(page_content='中期管理\n在藜麦8叶龄时,将行中杂草、病株及残株拔掉,提高整齐度,增加通风透光,同时,进行根部培土,防止后期倒伏。

2025-04-08 13:16:15 876

原创 LoRA 面试

LoRA 系列篇。

2025-04-08 13:14:34 943

原创 大模型(LLMs)推理面试

其将模型参数,梯度和优化器状态分布至多个 GPU 上,而非像 DDP 一样,在每个 GPU 上保留完整副本。可以采用一些方法来处理模型输出的分布稀疏,例如使用softmax函数的温度参数调节来平滑输出分布,或者引 入正则化技术,如Dropout,以减少模型对特定类别的过度依赖。混合精度训练的大致思路是在 forward pass 和 gradient computation 的时候使用 fp16 来加速,但是在更新参数时使用 fp32。接下来,我们用LLaMA-6B 模型为例估算其大致需要的内存。

2025-04-07 15:25:58 876

原创 大模型外挂知识库优化——负样本样本挖掘篇

大模型外挂知识库优化——负样本样本挖掘篇。

2025-04-07 15:24:19 920

原创 transformers 操作面试

# hidden_states,包括13层,第一层即索引0是输入embedding向量,后面1-12索引是每层的输出向量。transformers 操作篇。

2025-04-06 19:59:55 559

原创 大模型(LLMs)参数高效微调(PEFT) 面

增加额外参数,如:Prefix Tuning、Prompt Tuning、Adapter Tuning及其变体。选取一部分参数更新,如:BitFit。引入重参数化,如:LoRA、AdaLoRA、QLoRA。混合高效微调,如:MAM Adapter、UniPELT。并比较了不同的高效微调方法之间的差异;同时,还指出当前大多数高效微调方法存在的一些问题并给出了最佳 实践。

2025-04-06 19:57:51 994

原创 检索增强生成(RAG) 优化策略篇

检索增强生成(RAG) 优化策略篇。

2025-04-05 14:14:12 1345

原创 大模型(LLMs)增量预训练篇

解释一下这里为什么这么关注训练前期,是因为在真实训练中,我们可能不一定会增强图中所示的 250B 这么多的 tokens,尤其是在模型参数很大的情况中。注:但,这种前提是「充分训练」,如果只看训练前期的话,使用更长的预热步数(黄色的线),无论是「上游任务」还是「下游任务」,模型的 Loss 都要比其他预热步数要低(下游学的快,上游忘的慢)。注:PS:这里提示我们,当预训练中遇到了训练中断需要继续训练时,我们应该在重新开始训练时将学习率恢复到中断之前的状态(无论是数值还是衰减率)。

2025-04-05 14:10:57 922

原创 大模型外挂知识库优化——如何利用大模型辅助召回?

用LLM根据用户query生成k个“假答案”。(大模型生成答案采用sample模式,保证生成的k个 答案不一样。此时的回答内容很可能是存在知识性错误,因为如果能回答正确,那就不需要召 回补充额外知识了对吧。不过不要紧,我们知识想通过大模型去理解用户的问题,生成一些“看 起来”还不错的假答案)利用向量化模型,将生成的k的假答案和用户的query变成向量;将k+1个向量取平均:其中dk为第k个生成的答案,q为用户问题,f为向量化操作。利用融合向量v从文档库中召回答案。

2025-04-04 21:29:57 1057

原创 思维链 Chain-of-Thought(COT)

注:LLM解决问题的各种方法。每个矩形框代表一个thought,它是一个连贯的语言序列,是解决 问题的中间步骤。ToT将任何问题定义为在树上的搜索,其中每个节点都是一个状态s=[x;z1i], 表示到目前为止具有输入和thought序列的部分解决方案。

2025-04-04 21:28:02 802

原创 基于lora的llama2二次预训练

基于lora的llama2二次预训练一、为什么需要 对 llama2 做 基于lora的二次预训练?加入中文训练语料进行llama2的二次预训练,这样模型就可以增加支持中文输出的能力。二、基于lora的llama2二次预训练 的目标是什么?在保持预训练模型权重不变的情况下,通过添加额外的网络层并仅训练这些新增的网络层参数,实现大模型的高 效微调(peft)。三、基于lora的llama2二次预训练 的思想是什么?思想:基于对模型本征维度(intrinsic dimension)的理解。“本征维度”是指模型中

2025-04-03 16:30:47 1037

原创 检索增强生成(RAG) 优化策略

检索增强生成(RAG) 优化策略篇。

2025-04-03 16:28:56 1103

原创 Graph RAG 面 —— 一种 基于知识图谱的大模型检索增强实现策略

eg: “保温大棚”与“保温杯”,尽管在语义上两者是存在相关性的,但在大多数场景下,这种通用语义(Embedding)下的相关性很高,进而作为错误的上下文而引入“幻觉”。这时候,可以利用领 域知识的知识图谱来缓解这种幻觉。对于 知识图谱,是否可以将其 作为一路召回,提高检索的相关性,这个可以利用好知识图谱内部的知识。基于知识图谱召回的方法可以和其他召回方法一起融合,但这种方式在图谱规模很大时其实是有提升空间的。• 判断query和path中是否都包含数字 • 获取数字的Jaccrad的相似度。

2025-04-02 21:00:32 1078

原创 大模型(LLMs)RAG 版面分析——表格识别方法篇

表格识别包括表格检测和表格结构识别两个子任务。

2025-04-02 20:58:12 1106

原创 大模型(LLMs)参数高效微调(PEFT) 面试

增加额外参数,如:Prefix Tuning、Prompt Tuning、Adapter Tuning及其变体。选取一部分参数更新,如:BitFit。引入重参数化,如:LoRA、AdaLoRA、QLoRA。混合高效微调,如:MAM Adapter、UniPELT。并比较了不同的高效微调方法之间的差异;同时,还指出当前大多数高效微调方法存在的一些问题并给出了最佳 实践。

2025-04-01 11:55:39 1039

原创 如何使用 PEFT库 中 LoRA?

当然以上的缩放方案依旧存在精度损失,以及当矩阵中存在outlier时,这个精度损失会被放大,例如当tensor中 绝大部分取值在1以下,有几个值在100+,则缩放后,所有1以下的tensor信息都会被round抹去。# 对于新定义的这个Linear层,其本身继承了torch.nn.Linear,所以需要调用nn.Linear.train(self, mode)来控制一下自身原本参数的状态,并且此外它加入了lora_A和lora_B两部分额外的参数,这两部分本质上也是nn.Linear,也需要控制状态。

2025-04-01 11:53:55 879

原创 LLMs 激活函数

介绍一下 FFN 块 计算公式?2个可训练权重矩阵,中间维度为 4h各LLMs 都使用哪种激活函数?4h = 4*4096 = 163842/3 * 4h = 10022 -> 1100811008/128 = 86

2025-03-31 13:13:10 152

原创 大模型(LLMs)RAG 优化策略 —— RAG-Fusion篇

大模型(LLMs)RAG 优化策略 —— RAG-Fusion篇它解决了RAG固有的限制,通过生成多个用户查询并重新排序结果。利用逆向排名融合和自定义 向量评分加权进行综合、准确的搜索。RAG-Fusion旨在弥合用户明确询问与他们意图询问之间的差距,更接近于发现通常隐藏的变革性 知识。RAG-Fusion的基础三元组与RAG相似,核心技术包括:然而,与RAG不同的是,RAG-Fusion通过几个额外的步骤区分自己——查询生成和结果重新排 序。利用提示工程和自然语言模型拓宽搜索视野,提升结果质量。利用提示

2025-03-31 13:11:11 423

原创 Python NPM Maven Docker 镜像源地址

临时使用指定镜像源安装包。# 临时使用指定镜像源安装包。为个人阿里云账号 ID)

2025-03-30 09:27:34 813

原创 国内常用镜像源地址汇总及使用示例

本文档汇总了 Python、NPM 以及其他常用工具(如 Maven、Docker)的国内镜像源地址,并附上对应的使用示例,方便开发者在日常开发中快速配置和使用。

2025-03-30 09:26:06 1077

原创 传统 Attention 存在哪些问题?

Falcon、PaLM、ChatGLM2-6B都使用了Multi-query Attention,但有细微差别。ChatGLM2,LLaMA2-34B/70B使用了Grouped query attention。在8B参数量规模,会有轻微的模型效果损失;在62B参数量规模,就不会损失模型效果。用并行公式替换了串行,提升了15%的训练速度。Falcon、PaLM都使用了该技术来加速训练。

2025-03-29 10:38:42 1224

原创 Layer normalization-方法篇一、Layer Norm 篇

RMS Norm 简化了 Layer Norm ,去除掉计算均值进行平移的部分。对比LN,RMS Norm的计算速度更快。效果基本相当,甚至略有提升。BLOOM在embedding层后添加layer normalization,有利于提升训练稳定性:但可能会带来很大的性能损失。Deep Norm可以缓解爆炸式模型更新的问题,把模型更新限制在常数,使得模型训练过程更稳定。

2025-03-29 10:35:44 478

原创 大模型(LLMs)微调面

接乘以缩放系数 a 来减小浅层梯度更新值其实这块我有个自己的想法,e 和 a 是否也可以做衰减,随着训练过程逐渐减小,来避免loss spike的现。首先我们想象一下 ut 这个更新参数 的变化趋势进入正态分布的稳态之后,理想的更新参数变化趋势应该是方差越来越小,所有更新参数逐渐向0靠近。进行预训练的时候会把这句话连接起来,用前面的词来预测后面出现的词。在计算损失的时候,问句中。点是随着轮数的增加,history 存储的 对话会越来越多,导致 max_length 增加,从而 出现 爆显问题。

2025-03-28 16:07:06 874

原创 大模型(LLMs)训练集面

主动学习有两个基本原则,在监督训练的时候,注意主动发现数据的两个方面,一个是数据多样性,另。多样性即为数据的去重,去重这件事的核心是相似度度量,现在的相似度度量方法大家用的比较多的是。数据的不确定性主要体现数据的质量筛选上,选取模型学的不那好的数据,模型没有把握的数据。通过这样的操作,就能把长得与已有数据不一样的数据给选出来了,并且这个过程是半监督的。监督学习中主动学习的两个基本原则是寻找多样性的数据,模型不确定性的数据,在寻找。这几个小技巧,学术上没有什么高深莫测的东西,都是实践中总结出来的好用的方法。

2025-03-28 15:23:53 623

原创 零样本学习(Zero-shot learning)以及它与少样本学习(Few-shot learning)、单样本学习(One-shot learning)、监督学习(Supervised learn

零样本学习利用辅助语义信息,在没有任何目标类别样本的情况下进行预测,适合应对类别众多或不断扩展的应用场景。少样本学习和单样本学习则侧重于如何在只有极少数据的情况下提取足够信息进行分类,两者主要区别在于每个类别可用的样本数。监督学习是依赖充足标注数据的传统方法,其难点在于数据采集与标注的成本。除此之外,“shot”范式还包括多样本(many-shot)、通用的 k-shot 以及一些结合跨域、半监督等情形的变体,都是为了应对现实应用中数据不足或数据分布差异等问题而发展出的迁移学习策略。

2025-03-24 09:32:19 446

原创 通过代理知识蒸馏克服文档摄取与RAG策略的失败:金字塔搜索方法

原子见解层(216,931条)概念抽象层(14,824条)文档摘要层(331篇)全局记忆层(持续更新)

2025-03-24 09:31:07 598

原创 大语言模型微调和大语言模型应用的区别?

微调大型语言模型是指取一个已经预训练的LLM,在一个较小的、特定任务或领域的数据集上进一步训练。这个过程旨在让模型更适合特定应用,例如医疗报告生成或法律文件分析。研究表明,微调能提高模型在特定任务上的准确性和相关性,例如一家医疗组织可能微调GPT-3来处理医疗术语。大型语言模型应用是指将LLM用于实际场景中解决实际问题或执行特定任务。这些应用包括聊天机器人、文本摘要、语言翻译、客户服务支持,以及医疗、金融等领域的专业服务。例如,Duolingo使用微调的LLM提供个性化的语言学习体验。

2025-03-23 10:59:43 1188

原创 大语言模型量化是什么?

是一种优化技术,旨在减少模型的存储和计算需求,将参数的位宽降低,如转换为 16 位浮点(FP16)、8 位整数(INT8)甚至 4 位整数(INT4)。量化通常涉及定点数(Fixed Point)、浮点数(Floating Point)和整数运算(Integer Arithmetic)。大语言模型(如 GPT、Llama、BERT 等)通常由大量的神经网络参数(权重)组成,这些参数通常是 32 位浮点数(FP32)。量化的基本思想是用较低精度的数值表示较高精度的参数,同时保持模型的计算能力。

2025-03-23 10:57:56 929

原创 大语言模型量化是什么?

是一种优化技术,旨在减少模型的存储和计算需求,将参数的位宽降低,如转换为 16 位浮点(FP16)、8 位整数(INT8)甚至 4 位整数(INT4)。量化通常涉及定点数(Fixed Point)、浮点数(Floating Point)和整数运算(Integer Arithmetic)。大语言模型(如 GPT、Llama、BERT 等)通常由大量的神经网络参数(权重)组成,这些参数通常是 32 位浮点数(FP32)。量化的基本思想是用较低精度的数值表示较高精度的参数,同时保持模型的计算能力。

2025-03-22 09:18:49 831

原创 只有0.01%的人能够答对,LLM考察试题(含答案),看看你对LLM的理解怎么样?

A. 优化模型训练速度B. 提高模型准确率C. 选择重要的信息并忽略不相关的信息D. 改进模型的可解释性注意力机制的核心功能是帮助模型在处理数据时,聚焦于重要的信息,忽略不相关的内容。这在处理长序列数据时尤为重要,因为它能增强模型对上下文和依赖关系的理解能力。A. 递归神经网络(RNN)B. 卷积神经网络(CNN)C. 注意力机制(Attention)D. 自组织映射(SOM)

2025-03-22 09:14:42 644

原创 一、大语言模型微调 vs. 大语言模型应用

微调强调在预训练模型基础上,通过数据和算法的精细调整提升专业化能力,要求深厚的算法和工程实践能力。应用则侧重于将成熟模型通过提示工程、API集成、系统部署转化为具体产品,更多需要全栈开发与系统集成能力。市场上,微调岗位更适合拥有科研背景、精通深度学习和大规模计算的候选人;而应用岗位则需要具备软件工程、系统设计、前后端协同开发以及对业务场景有敏锐理解的工程师。两者虽然方向不同,但在大语言模型迅速发展的今天,都属于热门且高薪的方向。

2025-03-21 11:55:07 883

原创 Transformer真的在推理吗?复旦大学揭开大模型“走捷径“的认知陷阱

在AI领域掀起推理革命的Transformer架构,正面临一场认知危机。复旦大学团队最新发表的《Implicit Reasoning in Transformers is Reasoning through Shortcuts》犹如一记惊雷,揭示了大语言模型引以为傲的推理能力,可能只是建立在数据捷径上的海市蜃楼。这项研究不仅颠覆了我们对模型推理机制的认知,更为AI可解释性研究开辟了新的战场。

2025-03-21 11:54:07 802

原创 大语言模型量化是什么?

大语言模型量化通过将高精度参数转换为低精度表示,减少存储和计算需求,同时通过校准和微调尽量保持性能。它依赖量化感知训练、后训练量化、混合精度计算、硬件加速以及其他压缩技术共同实现。这种方法使得大语言模型能够在边缘设备或资源受限场景中高效部署,成为模型优化领域的重要技术之一。

2025-03-20 09:33:59 600

原创 只有0.001%的人能够答对,LLM考察试题(含答案),看看你对LLM的理解怎么样?

A. 人工智能必须具备自我意识。B. 人工智能能够通过模拟人类行为来欺骗人类。C. 人工智能必须能够编写代码。D. 人工智能必须能够理解情感。:图灵测试是判断机器是否具有智能的一种方法,其核心是如果机器能与人类对话且人类无法分辨它是机器还是人,则认为它具有智能。因此,B选项“人工智能能够通过模拟人类行为来欺骗人类”最符合图灵测试的原则。A. 字节B. 比特C. 像素D. 矩阵:计算机数据的最基本单位是比特(bit),即二进制位,表示0或1。

2025-03-20 09:32:54 511

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除