- 博客(19)
- 收藏
- 关注
原创 每天一个大模型相关知识点系列--Lora微调
大模型微调通常发生在预训练模型完成之后,通过在特定任务或领域数据上进行再训练,使模型具备特定的下游任务能力或注入领域知识。然而,由于大规模语言模型参数量巨大,全量微调需要显著的计算资源和存储开销,在多任务或多场景设置下成本较高,且模型参数难以复用。具体而言,在 LoRA 微调过程中,预训练模型的原始参数被冻结,仅在模型中的线性层上引入可训练的低秩适配模块。通过这种方式,LoRA 在显著减少可训练参数数量和计算开销的同时,能够在较大程度上保持模型的原有能力,并实现有效的任务适配。其中 α 为缩放系数。
2025-12-17 21:17:01
206
原创 每天一个大模型相关知识点系列--GRPO
在训练过程中,对于每一个输入 prompt,模型从当前策略分布中采样多个候选响应,这些响应是同一策略下的不同行动样本。随后,reward model 对这些候选输出进行打分,并在 group 内计算相对优势(group-relative advantage),通常通过减去 group 内平均奖励作为 baseline,以降低策略梯度估计的方差。基于该相对优势,GRPO 采用策略梯度方法对模型参数进行更新,使得获得较高相对奖励的响应在策略分布中的概率增加,而相对奖励较低的响应概率降低。
2025-12-16 22:33:14
116
原创 每天一个大模型知识点系列--大模型如何训练,分为哪些阶段
在第二阶段模型学会回答问题之后,第三阶段的目的是教会模型按人类的偏好进行学习,目标是让模型的输出更符合人类的安全与价值偏好。接着,使用强化学习算法,以奖励模型的打分为信号,优化微调后的语言模型,同时约束其输出不要过于偏离微调阶段的水平,以确保生成质量。第二个阶段是监督微调阶段。首先是对模型提问,让模型输出两个回答,人类专业对回答进行打分,模型根据打分更新模型参数,从而让大模型的回答更符合人类的偏好。通过这三个阶段的学习,模型记住了知识,学会了回答问题,并通过人类的反馈,使其回答的更加贴合人类的偏好。
2025-12-15 11:03:08
104
原创 每天一个大模型知识点系列--大语言模型的“大”体现在哪些方面
常规的大模型往往是用的transformer的decoder-only架构的,由数十到数百层Transformer架构堆叠,由数十个注意力头并行处理。相比于传统的神经网络是任务导向的,例如做垃圾分类的模型不能用在其他的任务上。大规模的参数往往能学习到更多的信息,从而更好的拓展大模型的能力。大模型的训练数据包含各行各业的海量数据,往往规模能达到百亿级甚至万亿级的token。第四个,就是模型训练所需要的资源大,从头训练一个GPT模型,可能需要数千张A100运行数周才能实现。大语言模型,显著的特点是大。
2025-12-10 17:58:08
112
1
原创 【深度学习-pytorch】线性回归从0开始实现
线性模型可以看作单层神经网络,从零开始实现整个方法,包括数据流水线、模型、损失函数和小批量随机梯度下降优化器
2022-02-07 17:04:15
1374
原创 【深度学习-pytorch】自动求导实现
import torchx=torch.arange(4.0)print(x)x.requires_grad_(True)#把梯度放在哪个地方print(x.grad)y=2*torch.dot(x,x)#内积×2print(y)# 通过调用反向传播函数来自动计算y关于x每个分量的梯度y.backward()#求导x.gradprint(x.grad==4*x)#在默认情况下,pytorch会累计梯度,我们需要清楚之前的值x.grad.zero_()#_表示重
2022-01-30 16:14:51
3010
2
原创 【深度学习-pytorch】数据操作与数据处理实现
一、数据操作import torchx=torch.arange(12)print(x)print(x.shape)print(x.numel())#元素的种数x=x.reshape(3,4)print(x)#全0或者全1print(torch.zeros(2,3,4))print(torch.ones(2,3,4))print(torch.tensor([[2,1,4,3],[1,2,3,4],[4,3,2,1]]))print(torch.tensor([[2,1,4,3
2022-01-27 17:31:49
1735
原创 【强化学习】DQN(Deep Q network)原理及实现
一、原理DQN为融合了神经网络和Q-learning的方法。面对复杂问题,state数量巨多,传统的表格学习已经不能满足此种情况。神经网络的的工作模式为通过对输入进行处理学习得到结果的过程。神经网络应用到强化学习中时,输入为状态和动作,价值作为其输出,或者输入为状态,输出为最大值的动作,省略了需要用表格记录动作及状态的过程,可更好的应用于复杂状态下的处理。DQN中还有两种机理用于提升。一种为Experience replay(经验回放),随机对之前的经历进行学习,使其更新更有效率。Fixed Q
2022-01-27 14:07:41
3176
1
原创 论文泛读:Approximate dynamic programming for stochastic resource allocation problems-随机资源分配问题的近似动态规划
基于马尔可夫决策过程原理,提出了一种随机资源分配模型
2022-01-25 23:35:58
559
1
原创 【强化学习】SARSA(lambda)与SARSA区别及python代码实现
SARSA(lambda)与SARSA区别及对SARSA(lambda)进行python代码实现
2022-01-22 17:52:06
1376
原创 【强化学习】Q-learning与SARSAS算法比较与SARSA算法实现
Q-learning与SARSA区别Q-learning为offpolicy(看着别人玩,自己学着别人玩),target使用greedy,action用ε-greedy。行动策略和评估策略不是一个策略。SARSA是on-policy的更新方式(从自身的经验学),它的行动策略和评估策略都是ε-greedy策略。与Q-learning相比更保守。二、SARSA算法代码实现-testfrom maze_env import Mazefrom RL_brain import SarsaTabl..
2022-01-21 10:55:11
780
原创 【强化学习】python实现Q-learning算法更新
一、Q-learning算法更新提升的循环from maze_env import Maze#导入环境from RL_brain import QLearningTable#导入 QLearning表#更新的功能def update(): for episode in range(100):#100个回合 observation = env.reset()#环境给出的观测值 while True: env.render(...
2022-01-20 11:06:06
1903
原创 【强化学习】python回顾与python实现Q-learning
一、python回顾类与实例 类有自己的属性和方法。(例:class Person:) 想要调用方法需要创建实例:实例要创建变量,指向类的名字(p1=Person()),调用方法的话在变量的后边句号方法的名字+括号。(p1.greet()) 如果想把属性进行隐藏,可以把名字前边加两个下划线 __init__帮助class初始化 继承和多态(例:class Animal: class Dog:) ...
2022-01-19 10:15:00
579
原创 论文泛读: 基于改进退化隐马尔可夫模型的设备健康诊断与寿命预测研究
一、期刊论文概述1.论文题目: 基于改进退化隐马尔可夫模型的设备健康诊断与寿命预测研究2.作者: 刘文溢, 刘勤明, 叶春明, 李冠林3.文献来源: 计算机应用研究4.发表时间: 2021 年3 月 5.创新点: 提出了一种以似幂关系加速退化为核心的DGHMM,较常规指数式加速退化而言,能更加准确地描述设备性能随役龄增加而逐渐加速下降的过程。二、基础知识:1.名词简写: 改进退化隐马尔可夫模型(DGHMM); 隐马尔可夫模型(HMM); 隐半马尔可夫模型( HSMM); EM(E
2022-01-18 12:10:38
863
原创 论文泛读:基于马尔可夫模型的多agent 自适应在线验证
一、期刊论文概述1.论文题目:基于马尔可夫模型的多agent 自适应在线验证2.作者:叶幸瑜,刘玮,王宁,甘陈峰3.文献来源:计算机应用研究4.发表时间:2021 年5 月5.创新点:将在线定量验证技术(RQV)扩展至多agent系统中,提出了基于马尔可夫模型的多agent 自适应在线验证方法,并验证了该方法的可行性二、基础知识:马尔可夫模型:包含我们悉知的马尔可夫链、马尔可夫决策过程、隐马尔可夫链(HMM)等随机过程/随机模型。一个随机过程可以表示为函数X: T × Ω→S,其
2022-01-17 12:12:43
509
原创 文献综述怎么写
一、文献综述概述1文献综述理解综:综合起来; 述:评述。总结起来为综合与评述2文献综述的作用(1)帮助我们形成理论框架防止盲目的重复研究;弄清前人观点;帮助构思;形成自己的研究思路。(2)科研综合能力提升提高文献查阅的能力3过程①查找文献②阅读文献③单篇评论④综合评论理解想法评估想法找出所需要的连接起来进行取舍4文献类型以学术期刊为主,反应领域最新的研究前沿和正在探索的问题二、文献综述基本写作要求1.研究生论文:5页左右数量:硕士60以评述为主,不可罗列文献
2022-01-15 15:47:36
1427
3
原创 论文泛读:基于混合deep-Q网络的运输资源不足柔性作业车间实时数据驱动动态调度
1.论文题目:Real-time data-driven dynamic scheduling for flexible job shop withinsufficient transportation resources using hybrid deep Q network2.作者:Yuxin Li, Wenbin Gu*, Minghai Yuan, Yaming Tang3.文献来源:Robotics and Computer-Integrated Manufacturing4.名词.
2022-01-14 22:42:45
3212
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅