自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 大模型 Function Call 的实现步骤及示例详解

大模型Function Call实现步骤:通过定义工具列表(如时间查询、天气查询),模型根据用户问题判断是否调用工具,生成标准化调用指令(含工具名、参数),执行工具后返回结果,最终整合为自然语言回答。代码示例展示了完整的流程,包括工具定义、模型判断、工具执行及结果整合。

2025-07-19 16:42:34 2183

原创 大模型 Function Calling 中的两种参数传入方式对比——为什么建议tools方式传参而不建议system message传参

在大模型工具调用场景中,建议通过tools而非System Message传入函数参数,原因有三: 功能定位匹配:tools专为结构化工具接口设计,而System Message用于行为约束,二者定位不同; 准确性差异:tools的JSON格式能精准定义参数,避免自然语言描述的歧义和错误; 维护与优化:独立tools参数便于更新,且模型对专用参数的解析更可靠。 因此,tools参数在工具调用中具有显著优势,是更优选择。

2025-07-19 16:20:41 1021

原创 大模型RLHF中PPO强化学习代码学习笔记(二)

PPO的训练像一场“策略微调游戏”采样试错:模型生成回复,拿奖励(加KL惩罚)。自我评估:预测自己能得多少分(价值网络),对比实际得分算“优势”。稳定改进:通过“新旧策略比例”限制更新幅度,避免“画风突变”,同时训练价值网络更准。反复练习:同一批数据练多轮,逐步优化,最终让模型“又会写、又会估分”。(实际工程中,还会用clip进一步限制策略变化,让训练更稳定!

2025-07-06 16:07:38 1068

原创 大模型RLHF中PPO强化学习代码学习笔记(一)

这是大模型训练中 PPO算法(近端策略优化)的核心流程,用于结合强化学习优化模型生成能力(如RLHF中的策略更新阶段)。整体分为 数据采样→奖励计算→目标构建→多轮优化”四个阶段: 1. 采样:从prompt数据集获取输入,让模型生成回复,构建训练数据。 2. 奖励:结合奖励模型评分和KL散度惩罚,得到最终奖励。 3. 目标:计算优势函数(实际奖励与价值预测的差)和回报(用于优化价值网络)。 4. 优化:在同一批数据上迭代训练,同时优化*

2025-07-06 16:02:40 978

原创 大语言模型预训练数据——数据采样方法介绍以GPT3为例

GPT-3训练采用非等比例采样策略,通过人工设定不同数据集的采样权重(Weight in training mix)来平衡学习广度和深度。例如,Common Crawl权重60%,Wikipedia权重3%,使得小数据集能被多次学习。计算Epochs时,用"权重×总训练量÷数据集大小"得出每个数据集被学习的轮次,如Wikipedia在3000亿总训练量下被学习3.4遍。这种策略打破了数据集原始大小的限制,优化了模型对不同类型数据的吸收效果。

2025-07-04 18:18:46 802

原创 Instruct-GPT中强化学习(RL)训练部分详解

Instruct-GPT在监督微调(SFT)模型的基础上,使用近端策略优化(PPO)算法进行强化学习微调。这一设计参考了Stiennon等人(2020)的研究,核心目标是让模型更好地遵循用户指令。

2025-07-01 22:33:21 1192

原创 Instruct-GPT奖励模型的损失函数与反向传播机制解析

摘要:Instruct-GPT的奖励模型采用比较对排序损失函数,通过sigmoid函数将奖励差值转化为概率,驱动模型学习人类偏好。损失函数包含负对数似然,确保损失值始终为正,反向传播时自动调整参数使偏好响应奖励提升、非偏好响应降低。该机制支持批量处理多响应比较,从两两偏好自动推导全序关系,与传统排序模型相比更高效。通过优化相对奖励差值而非绝对值,模型能有效利用人类标注数据,为后续RL训练提供可靠的价值评估。整个系统通过梯度下降实现参数更新,当奖励差值趋近1时达到收敛。

2025-06-30 22:21:02 909

原创 Instrct-GPT 强化学习奖励模型 Reward modeling 的训练过程原理实例化详解

本文实例化详细解析了Instrct-GPT强化学习奖励模型的训练原理。主要亮点包括:1)采用捆绑式批次处理,同一prompt的多个响应共享上下文,仅需一次前向传播即可计算所有比较对,显著提升计算效率;2)通过人工标注的排序数据自动生成比较对,使用Pairwise Ranking Loss优化奖励差异,避免主观评分的不一致性;3)模型直接学习人类偏好的相对关系而非绝对分值,通过sigmoid函数将奖励差异转化为概率。这种设计实现了计算效率与模型性能的双重提升,为后续强化学习提供了可靠的价值评估基础。

2025-06-30 21:34:10 1240

原创 2 大语言模型基础-2.2 生成式预训练语言模型GPT-2.2.2 有监督下游任务微调-Instruct-GPT强化学习奖励模型的结构改造与维度转换解析

本文详细解析了GPT-3模型在强化学习阶段改造为奖励模型的结构变化。原始GPT-3分类头由768维隐藏层映射到50257维词表空间,而奖励模型移除Softmax层,替换为768×1的线性层输出标量奖励值。这种改造利用了预训练模型的高层语义特征,通过线性转换学习人类偏好评分,与强化学习框架完美兼容。文章通过维度转换实例(如GPT-3小型模型)说明技术细节,并指出隐藏状态聚合的多种实现方式。核心差异在于分类任务需要概率归一化,而奖励模型只需回归输出单维评分。

2025-06-30 20:15:43 372

原创 3 大语言模型预训练数据-3.2 数据处理-3.2.3 隐私消除——使用正则表示方法过滤个人隐私信息数据(包括邮件、电话、地址等)

摘要: 本文介绍使用正则表达式在大模型数据处理中过滤个人隐私信息的方法。通过模式匹配识别邮箱、电话、地址等敏感信息,并给出常见正则模式(如中国手机号1[3-9]\d{9})和Python实现示例。该方法高效灵活,但需注意误判漏判问题,建议结合关键词过滤和机器学习优化精度,同时遵守隐私法规。正则表达式结合其他技术可有效平衡数据可用性与隐私保护需求。

2025-06-25 17:37:19 795

原创 3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——3.后缀数组(Suffix Array)在大模型数据去重中的原理与实战

摘要: 后缀数组通过排序字符串所有后缀并计算最长公共前缀(LCP),高效检测重复文本。其核心流程包括文档合并、后缀排序、LCP计算及阈值判定,时间复杂度可优化至O(n),适合大模型数据去重。工程实现中,后缀数组能精准定位长重复片段,但对语义重复不敏感,且需权衡内存消耗与阈值设定。优化方向包括结合语义分析及分块处理超长文本。案例显示,该方法可有效识别跨文档的完全重复内容(如LCP长度≥10字符),但需补充技术解决语义级重复问题。

2025-06-25 17:31:42 690

原创 3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——2.SimHash算法文本去重实战案例:新闻文章去重场景

本文介绍了SimHash算法在新闻文章去重中的应用案例。针对新闻聚合平台每天10万篇新闻的去重需求,SimHash能够有效识别语义相似但表述不同的文本(如转载或改写版本)。实现步骤包括:文本预处理与特征提取、特征向量化与哈希映射、向量聚合、降维生成SimHash值,以及通过汉明距离判断相似性。案例演示了三个新闻文本的去重过程,并通过Python代码示例展示了工程化实现。结果表明,SimHash能够准确区分相似文本(汉明距离2)和不同主题文本(汉明距离8)。优化建议包括结合倒排索引加速查询,以及针对长文本进行

2025-06-25 17:16:11 887

原创 3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——1.SimHash算法处理冗余信息的核心原理

SimHash是一种局部敏感哈希算法,主要用于文本去重和相似性检测。其核心原理是将文本分词并赋予权重后,通过加权哈希映射和向量聚合,生成固定长度的二进制指纹。相比传统哈希,SimHash能保留语义相似性——相似文本生成的哈希值汉明距离较小。算法流程包括:1)分词与权重计算;2)特征哈希与加权映射;3)向量聚合;4)二值化生成指纹;5)通过汉明距离判断相似性。优势在于时间复杂度低、抗噪声能力强,尤其适合大规模数据处理。但存在对语序不敏感的局限,可通过结合词向量等方法优化。

2025-06-25 17:11:37 656

原创 HuggingFace下载的模型缓存到了C盘,如何安全迁移到其他盘

如何迁移HuggingFace下载的大模型C盘缓存到D盘? HuggingFace默认将模型缓存至C盘(C:\Users\用户名\.cache\huggingface),可通过以下方法安全迁移到D盘: ✅ 推荐方案:设置环境变量HF_HOME 在D盘新建目录(如D:\HuggingFaceCache) 永久设置:添加系统变量HF_HOME=D:\HuggingFaceCache

2025-06-25 12:50:56 924

原创 Transformer架构中,为什么需要Add+Normalize层,该机制的详细介绍

Transformer架构中的Add+Normalize层通过残差连接(Add)解决深层网络的梯度消失问题,允许信息直接传递;层归一化(Normalize)则稳定输入分布,加速训练。Add先执行避免分布波动,Normalize后处理确保特征平滑。该组合机制使Transformer能够堆叠深层网络,在NLP任务中保持稳定高效的训练,是架构成功的关键技术之一。

2025-06-23 21:35:55 754

原创 已解决Yolo-world报错:AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst

已解决Yolo-world报错:AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipeline‘

2025-03-24 17:24:53 507

原创 快速切换 CUDA 版本-Windows 系统

今天创建了一个新的CUDA版本11.3,原来是11.8,关于两个版本如何切换做一些记录。总结来看主要就两步:1.将系统变量PATH中现在所需版本的CUDA路径**上移**到另一个版本前面从而优先使用该版本;2.系统变量CUDA_PATH设置为对应版本的路径(可选但推荐)。

2025-03-24 12:48:59 1961

原创 Conda虚拟环境安装路径设置方法

在使用命令`conda create -n cuda_env python=3.9`进行Conda新建虚拟环境时,发现虚拟环境默认安装在C盘。你可以通过以下两种方法将Conda新建的虚拟环境安装到指定目录,避免占用C盘空间,推荐方法一,亲测有效,永久生效!

2025-03-23 21:45:08 7062

原创 大模型训练与微调(8)——LoRA详解与示例

LoRA(Low-Rank Adaptation)是一种大模型参数高效微调的方法,核心思想是通过低秩矩阵分解,仅训练少量参数来适配下游任务,同时冻结原始模型参数

2025-03-04 22:09:46 878 1

原创 大模型训练与微调(7)——学习率预热策略

学习率预热(Learning Rate Warmup)是深度学习中一种优化训练过程的策略,其核心思想是:在训练初期逐步从小学习率过渡到预设的初始学习率,避免模型因初始参数随机化直接使用大学习率导致的不稳定问题。

2025-03-02 16:33:56 1468

原创 大模型训练与微调(6)——微调之 Prompt Tuning 详解

今天学了Prompt Tuning,记录一下!以下是大模型微调的 Prompt Tuning 方法详解,涵盖其核心思想、实现步骤、优化策略及实践建议!

2025-03-01 22:15:50 1826

原创 大模型训练与微调(5)——微调方法总结 与 选择建议

大模型微调(Fine-tuning)根据调整参数的范围、效率和策略,微调方法可分为以下几类。根据不同的应用场景可选择特定的微调方法以实现最优的效果。

2025-03-01 12:16:37 1889

原创 大模型训练与微调(4)——Top-k 和 Top-p 采样策略介绍

在自然语言生成任务中,**Top-k** 和 **Top-p** 是两种广泛使用的采样策略,用于控制大模型生成结果的多样性与可靠性。它们通过动态筛选候选词的概率分布,避免生成低质量或不合逻辑的文本。以下从定义、数学原理、实际应用和对比分析四个方面详细解析这两种方法。

2025-02-28 22:32:51 1952

原创 大模型训练与微调(3)——温度值参数T(Tempreture)对模型效果的影响

温度值(Temperature)是控制语言模型生成结果随机性的重要参数,主要通过对概率分布进行缩放来影响输出多样性。以下从数学原理和实际示例两个角度分析其作用机制。

2025-02-28 22:23:55 1712

原创 大模型训练与微调(2)——两种主流优化器的对比分析 AdamW vs Lion

本文介绍了当前大模型主流的两种优化器 AdamW、Lion的核心原理、优势对比及适用场景分析,结合最新研究进展和实验数据

2025-02-28 13:03:32 1637

原创 大模型训练与微调(1)——优化器选择总结

当前最新的大模型在优化器的选择上,主要结合了传统优化器的稳定性与新型优化器的效率优势。以下分为五个部分来介绍:一、AdamW优化器:成熟稳定的主流选择。二、Lion优化器:谷歌提出的高效替代方案。三、其他优化器的补充应用。四、优化器选择趋势与实验对比。五、未来发展方向。

2025-02-28 12:38:48 1926

原创 GPT2源码(3)—— AdamW优化器

AdamW通过解耦权重衰减与梯度更新,成为训练GPT-2等大规模语言模型的首选优化器。正则化效果精准:独立权重衰减避免自适应学习率的干扰。训练过程稳定:减少参数爆炸风险,适合Transformer架构。广泛适用性:被后续大模型(如GPT-3、BERT)沿用,成为业界标准。尽管新型优化器(如Lion)在某些场景下表现更优,AdamW因其成熟性和稳定性,仍是当前大模型训练的重要基础工具。

2025-02-28 12:20:18 1222

原创 GPT2源码(2)——标签平滑(Label Smoothing)

在学习GPT2源码的时候,到了标签平滑这里,总结一下!上面进行原理介绍,下面详细举例子来说明标签平滑的过程!

2025-02-27 22:30:46 1216

原创 GPT2源码(1)——梯度累积和梯度裁剪

近期要用GPT2手搭一个项目,今天手撕了GPT2源码,解决了一些困惑的地方,总结一下!梯度累积和梯度裁剪是深度学习中常用的两种技术,用于优化训练过程。

2025-02-27 21:56:28 1142 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除