语言模型微调的计算资源优化策略

最新推荐文章于 2025-12-24 22:37:26 发布

m0_70960708

最新推荐文章于 2025-12-24 22:37:26 发布

阅读量58

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记文章标签：语言模型机器学习人工智能

本文链接：https://blog.youkuaiyun.com/m0_70960708/article/details/140916597

笔记专栏收录该内容

624 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

首先，我将简要概述相关的数学原理及其原因，接下来，我们将深入探讨论文的细节，以及它们如何应用于 GPT-2 和 GPT-3 等 transformers 模型。

最重要的一点是：LoRA 减少了可训练参数（trainable parameters）的数量，从而减少了训练时间和 GPU 内存的使用量，同时保持了输出的质量。

LLM（顾名思义）的规模非常大。用于微调的数据集（fine-tuning datasets）通常比模型的预训练数据集小得多。当数据集比较小的时候，LoRA 只需更新较少的权重，这即是 LoRA 的优势所在。

二、LoRA 的工作原理
如果你熟悉矩阵乘法，那么应该知道 AxM 矩阵和 MxB 矩阵相乘得到的结果是一个 AxB 矩阵。

假设在神经网络中有一个 MxM 的预训练密集层（pre-trained dense layer）（权重矩阵）W。

例如，这个 Keras 模型有 3 个 size 为 512x512 的密集层（dense layers）：

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0_70960708

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

机器学习评估指标详解 - 进阶篇

liulanba的博客

12-24

590

本文深入探讨机器学习模型评估的进阶指标，分为训练过程指标、模型参数指标、超参数调优指标和模型验证指标四大类。训练过程指标包括训练损失和验证损失的监控与分析，通过损失函数类型（分类、回归、目标检测）实现不同任务的优化。模型参数指标关注参数量和计算量评估，超参数调优指标指导参数优化，模型验证指标则采用交叉验证等方法评估泛化能力。文章提供了完整的Python实现代码和可视化工具，帮助开发者全面理解机器学习模型的训练优化过程，有效解决过拟合、欠拟合等问题，平衡模型性能与计算资源。

动作识别9——TSN训练实验

shimingwang的博客

12-24

408

在上一篇中我们在自建数据集上训练了TSN，在验证集上准确率是0.83。然后我们通过推理发现推理结果倾向于负样本，怀疑可能是因为正样本：负样本=1:2导致的。于是这一篇我们首先删除一半的负样本，使得正样本：负样本=1:1，看看训练结果，结果就是在epoch=18的是top1准确率达到了最佳的0.8571，但是运行测试脚本却只有0.8214。

参与评论您还未登录，请先登录后发表或查看评论

机器学习高阶教程＜9＞从实验室到生产线：机器学习模型推理与部署优化实战指南

2303_77568009的博客

12-20

936

模型在测试集上表现出色，上线后却面临速度慢、资源占用高、精度骤降等“崩溃”问题。本文深入探讨工业级模型部署优化的核心三环节：模型瘦身（量化、剪枝、知识蒸馏）、推理加速与稳态运行。通过“原理+实操+案例+避坑”的模式，提供PyTorch/ONNX Runtime等工具的具体代码片段与调优技巧，旨在将实验室的高精度模型转化为能扛住高并发、长期稳定运行的工业级服务，助力算法工程师跨越从实验到商用的关键鸿沟。

机器学习高阶教程＜11＞当数据开始“折叠”：流形学习与深度神经网络如何发现世界的隐藏维度

2303_77568009的博客

12-21

901

你的照片在AI眼中可能只是高维空间中的一个点，而非有意义的物体。本文从经典对抗样本案例出发，揭示了流形学习的核心：真实世界的高维数据（如图像）往往分布在一个内在的低维结构（流形）上。文章深入探讨了维度的幻觉，对比了PCA、ISOMAP、t-SNE、UMAP等流形学习算法的哲学与效果，并阐释了深度神经网络如何通过学习数据的低维流形表示来实现强大功能。最终指出，理解数据的底层几何结构，是从“数据拟合”迈向“结构发现”的关键。

机器学习-DeepSeekR1

ArtoriaLili的博客

12-20

878

DeepSeek-R1：通过强化学习激励大语言模型的推理能力摘要我们推出了首代推理模型DeepSeek-R1-Zero和DeepSeek-R1。作为基础训练阶段，DeepSeek-R1-Zero通过大规模强化学习（RL）训练，无需监督微调（SFT），展现出卓越的推理能力。通过强化学习，该模型自然形成了诸多强大且引人入胜的推理行为。然而，其存在可读性差、语言混杂等挑战。为解决这些问题并进一步提升推理性能，我们推出了采用多阶段训练和冷启动数据的DeepSeek-R1。DeepSeek-R1在推理任务上的表

【机器学习】直观理解DPO与PPO：大模型优化的两种核心策略

Share With You

12-19

801

PPO和DPO代表了让大模型符合人类偏好的两种不同哲学。PPO通过复杂的多模型协作实现精细控制，适合复杂任务；DPO通过直接学习偏好数据实现高效优化，适合数据充足且目标明确的场景。理解它们的本质区别，有助于我们在实际应用中做出更明智的技术选型，让AI更好地服务于人类需求。

机器学习评估指标详解 - 入门篇

最新发布

liulanba的博客

12-24

592

本文是机器学习评估指标系列的第一篇入门指南，全面介绍了机器学习全流程中的基础评估指标。文章系统讲解了数据质量评估（缺失值率、数据覆盖率、重复值率）、数据一致性检查、数据分布指标（如偏度）等核心概念，并提供了详细的Python实现代码和可视化方法。通过数据质量评估、前处理指标、分类/回归/聚类任务指标等模块，帮助初学者建立完整的评估指标体系认知，确保从数据准备到模型评估各环节的质量监控。文章强调全面指标的重要性，包括避免"垃圾进垃圾出"、评估预处理效果、监控训练过程、验证模型泛化能力等关键

08.什么是监督学习？

AI算法蒋同学的博客

12-20

743

摘要：监督学习是一种机器学习方法，通过标记数据集训练模型，使其识别输入与输出间的关系，从而预测新数据的结果。训练过程依赖真实标签数据（人工标注或测量获得），利用梯度下降等优化算法调整参数，并通过损失函数评估准确性。监督学习分为分类（如SVM、决策树）和回归（如线性回归）任务，广泛应用于图像识别、垃圾邮件分类等领域。与无监督学习不同，监督学习需要标记数据指导模型训练，以实现高精度预测。其他学习方法还包括半监督、自监督和强化学习。

AI核心知识66——大语言模型之Machine Learning （简洁且通俗易懂版）

学习AI中...

12-24

573

机器学习是人工智能的核心技术，大语言模型（LLM）是其重要应用。与传统编程不同，机器学习让计算机从数据中自动学习规律。LLM的发展经历了三个阶段：无监督学习（预训练）、监督学习（微调）和强化学习（RLHF）。本质上，LLM是一个复杂的数学函数，通过调整参数来优化输出。近年来，得益于海量数据、强大算力和Transformer算法，机器学习技术才得以爆发式发展。机器学习不仅是具体技术，更是一种让计算机通过数据自主学习的思维方式，为AI发展奠定了重要基础。

脑电模型实战系列（四）：基于GAN和CGAN的脑电情绪识别 DEAP EEG ，GAN 生成特征的数据增强实验：DEAP Arousal 分类实战（三）

qq_32516809的博客

12-24

549

本文通过实验验证GAN生成数据对DEAP EEG情感分类任务的增强效果。研究对比了纯真实数据基线模型(65.2%准确率)与加入GAN生成数据后的增强模型(68.0%准确率)，结果显示GAN数据能有效提升分类性能。实验采用KNN为GAN样本生成伪标签，将训练集扩大5倍后，逻辑回归模型的F1分数也从0.638提升至0.662。分析表明GAN生成样本能填补特征分布空白，起到类似正则化的作用。文章同时指出当前方法的局限性，如伪标签精度和生成质量等问题，建议后续采用条件GAN进行定向增强。该研究为小样本EEG数据分析

[模式识别-从入门到入土] 拓展-KKT条件

qq_54636039的博客

12-24

524

[模式识别-从入门到入土] 拓展-KKT条件

解决tensor的shape不为1,如何转移到CPU的问题

算法与编程之美

12-24

225

并且我们也可以通过pred.argmax(dim=1)，我们获取每个样本预测结果概率最高的类别的索引，得到一个一维张量 batch_predictions。使用 .sum().item()方法对布尔值张量进行求和，计算出预测正确的样本数量，并使用 .item() 方法将结果转换为 Python 标量类型，以方便获取具体的数值。最后，使用 .sum().item()方法对布尔值张量进行求和，计算出预测正确的样本数量，并使用 .item() 方法将结果转换为 Python 标量类型，以方便获取具体的数值。

【降尺度】基于统计方法与机器学习技术在气候降尺度中的实践应用

2403_89634305的博客

12-23

443

【降尺度】基于统计方法与机器学习技术在气候降尺度中的实践应用

渐进式GAN (ProGAN)：高分辨率图像生成的革命

AI 音频小牛的博客

12-24

359

（Progressive Growing of GANs）由Tero Karras等人于2017年提出，是首个能够稳定生成的生成对抗网络。在它之前，生成高分辨率图像如同攀登珠峰，既危险又困难；在它之后，高分辨率图像生成成为标准配置。

机器学习——决策树之回归树

2401_83998832的博客

12-20

1130

解决回归问题的决策树模型你就是回归树回归树是一种基于决策树的监督学习算法，用于解决回归问题。通过递归地将特征空间划分为多个子区域，并在每个子区域内拟合一个简单的预测值（如均值），实现对连续目标变量的预测。

脑电模型实战系列（四）：基于GAN和CGAN的脑电情绪识别 DEAP EEG， PyTorch 纯 GAN 实战：生成 DEAP EEG 特征向量（二）

qq_32516809的博客

12-24

875

本文介绍了使用PyTorch构建生成对抗网络(GAN)来增强EEG特征数据的方法。针对DEAP数据集的1280个小样本问题，作者设计了基于MLP的生成器和判别器，通过10个epoch的训练使生成数据与真实EEG特征在PCA空间中达到80%的重叠度。文章详细展示了从数据加载、模型构建到训练优化的完整流程，并验证了生成特征在统计分布和波形趋势上与真实数据的相似性。该方法有效解决了EEG数据增强问题，但指出纯GAN无法控制生成样本的情绪属性，为后续改进留下空间。实验代码已开源，包含PCA可视化等质量评估模块。

Week 30: 机器学习补遗：时序信号处理与数学特征工程

MCHacker的专栏

12-21

785

本周重点了解了几种基于信号处理和统计学的时序预处理方法，包括离散小波变换、卡尔曼滤波和分数阶差分，均拥有完备的数学理论支撑。通过数学推导，理解这些方法如何在保留信号有效信息的同时，去除噪声并实现平稳性。本周我们从纯模型的构建暂时抽离，通过严谨的数学推导重新审视了数据预处理环节。小波变换利用正交基函数的多分辨率特性，在不损失时域信息的前提下分离了信号与噪声，优于传统的傅里叶变换。而卡尔曼滤波建立在状态空间与贝叶斯估计之上，为含噪数据提供了一种最优的平滑方案，特别适合流式数据处理。

股市分析：个股的数据建模

belldeep的专栏

12-24

506

个股数据建模是一套从数据到策略的完整量化流程，核心在于数据闭环、特征工程、模型适配与严格回测，以捕捉价格 / 收益的可解释规律并控制风险。

2303_77568009的博客

12-19

872