自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 已解决Yolo-world报错:AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst

已解决Yolo-world报错:AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipeline‘

2025-03-24 17:24:53 208

原创 快速切换 CUDA 版本-Windows 系统

今天创建了一个新的CUDA版本11.3,原来是11.8,关于两个版本如何切换做一些记录。总结来看主要就两步:1.将系统变量PATH中现在所需版本的CUDA路径**上移**到另一个版本前面从而优先使用该版本;2.系统变量CUDA_PATH设置为对应版本的路径(可选但推荐)。

2025-03-24 12:48:59 795

原创 Conda虚拟环境安装路径设置方法

在使用命令`conda create -n cuda_env python=3.9`进行Conda新建虚拟环境时,发现虚拟环境默认安装在C盘。你可以通过以下两种方法将Conda新建的虚拟环境安装到指定目录,避免占用C盘空间,推荐方法一,亲测有效,永久生效!

2025-03-23 21:45:08 484

原创 大模型训练与微调(8)——LoRA详解与示例

LoRA(Low-Rank Adaptation)是一种大模型参数高效微调的方法,核心思想是通过低秩矩阵分解,仅训练少量参数来适配下游任务,同时冻结原始模型参数

2025-03-04 22:09:46 594 1

原创 大模型训练与微调(7)——学习率预热策略

学习率预热(Learning Rate Warmup)是深度学习中一种优化训练过程的策略,其核心思想是:在训练初期逐步从小学习率过渡到预设的初始学习率,避免模型因初始参数随机化直接使用大学习率导致的不稳定问题。

2025-03-02 16:33:56 949

原创 大模型训练与微调(6)——微调之 Prompt Tuning 详解

今天学了Prompt Tuning,记录一下!以下是大模型微调的 Prompt Tuning 方法详解,涵盖其核心思想、实现步骤、优化策略及实践建议!

2025-03-01 22:15:50 1107

原创 大模型训练与微调(5)——微调方法总结 与 选择建议

大模型微调(Fine-tuning)根据调整参数的范围、效率和策略,微调方法可分为以下几类。根据不同的应用场景可选择特定的微调方法以实现最优的效果。

2025-03-01 12:16:37 1184

原创 大模型训练与微调(4)——Top-k 和 Top-p 采样策略介绍

在自然语言生成任务中,**Top-k** 和 **Top-p** 是两种广泛使用的采样策略,用于控制大模型生成结果的多样性与可靠性。它们通过动态筛选候选词的概率分布,避免生成低质量或不合逻辑的文本。以下从定义、数学原理、实际应用和对比分析四个方面详细解析这两种方法。

2025-02-28 22:32:51 1095

原创 大模型训练与微调(3)——温度值参数T(Tempreture)对模型效果的影响

温度值(Temperature)是控制语言模型生成结果随机性的重要参数,主要通过对概率分布进行缩放来影响输出多样性。以下从数学原理和实际示例两个角度分析其作用机制。

2025-02-28 22:23:55 648

原创 大模型训练与微调(2)——两种主流优化器的对比分析 AdamW vs Lion

本文介绍了当前大模型主流的两种优化器 AdamW、Lion的核心原理、优势对比及适用场景分析,结合最新研究进展和实验数据

2025-02-28 13:03:32 899

原创 大模型训练与微调(1)——优化器选择总结

当前最新的大模型在优化器的选择上,主要结合了传统优化器的稳定性与新型优化器的效率优势。以下分为五个部分来介绍:一、AdamW优化器:成熟稳定的主流选择。二、Lion优化器:谷歌提出的高效替代方案。三、其他优化器的补充应用。四、优化器选择趋势与实验对比。五、未来发展方向。

2025-02-28 12:38:48 846

原创 GPT2源码(3)—— AdamW优化器

AdamW通过解耦权重衰减与梯度更新,成为训练GPT-2等大规模语言模型的首选优化器。正则化效果精准:独立权重衰减避免自适应学习率的干扰。训练过程稳定:减少参数爆炸风险,适合Transformer架构。广泛适用性:被后续大模型(如GPT-3、BERT)沿用,成为业界标准。尽管新型优化器(如Lion)在某些场景下表现更优,AdamW因其成熟性和稳定性,仍是当前大模型训练的重要基础工具。

2025-02-28 12:20:18 684

原创 GPT2源码(2)——标签平滑(Label Smoothing)

在学习GPT2源码的时候,到了标签平滑这里,总结一下!上面进行原理介绍,下面详细举例子来说明标签平滑的过程!

2025-02-27 22:30:46 901

原创 GPT2源码(1)——梯度累积和梯度裁剪

近期要用GPT2手搭一个项目,今天手撕了GPT2源码,解决了一些困惑的地方,总结一下!梯度累积和梯度裁剪是深度学习中常用的两种技术,用于优化训练过程。

2025-02-27 21:56:28 863 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除