无监督和强化学习的一些概念理解

无监督学习

无监督模型如何构建损失?

无监督损失函数是用于衡量模型对未标注数据内在结构的捕捉能力,其目标是通过优化函数引导模型发现数据分布、特征关联性或潜在模式,而非依赖外部标签的监督信号。例如,在自编码器中,重构损失通过最小化输入与重建输出的差异捕捉数据的压缩表示

为什么无监督训练可以让模型捕获通用知识?

海量数据+统计特征提取。后者可以使模型对世界上的信息形成更加"抽象"(高维度)的理解

强化学习

强化学习(Reinforcement Learning, RL)是机器学习的一个分支,其核心思想是让一个智能体(Agent)通过与环境的交互学习如何做出最优决策,以最大化长期累积的奖励(Reward)。(注意强化学习强调的是,优化"一系列决策后的最终结果"的奖励,有点不看过程只要结果的意思

像是"给原版相机加了个镜头"让模型变得更加厉害。它并不是去修改模型,而是在模型之外套上一层使模型输出结果更好的"优化策略"或者"价值函数"。

"优化策略"或者"价值函数"的获得依赖于最终的结果反馈,这个反馈可以是人工可以是机器,但人工处理效率太低了,所以现在往往需要训练一个评估模型结合使用。

强化学习需要更新原模型参数吗?

对大模型的强化学习(RL)本质是通过参数更新实现策略优化,二者并非对立关系。策略的改进直接依赖于模型参数的调整,但存在两种典型实现方式:

  • 直接参数更新:通过梯度反向传播微调全部或部分模型权重(如RLHF主流方案);

  • 间接策略优化:冻结主模型参数,通过外部策略模块(如Adapter或前缀网络)控制输出行为(新兴研究方向)

强化学习与微调的区别

一些强化学习的博客:

强化学习--1.汇总

强化学习基础概念

强化学习从入门到精通!看这一篇就够了

什么是强化学习(马尔可夫决策过程)

强化学习是什么(超级详细)

强化学习简介

偏原理讲解的强化学习笔记

注释:

  1. 马尔可夫决策过程(Markov Decision Process, MDP)是序贯决策(sequential decision)的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报.

  2. 强化学习(Reinforcement Learning,RL)是一种机器学习方法,强化学习的基础框架是马尔可夫决策过程,它允许智能体(Agent)能够在与环境(Environment)的交互中通过试错来学习最优策略.

无监督、自监督、有监督和强化学习之间的对比

  • 监督学习:依赖带标签的数据(输入-输出对),直接学习映射关系。

  • 无监督学习:发现数据中的潜在结构(如聚类、降维)。

  • 自监督学习:通过构造辅助任务(Pretext Task)从数据本身生成伪标签,使模型学习通用特征表示。例如,通过预测图像的旋转角度或补全文本中的缺失词(如BERT的掩码语言模型)来构建监督信号

  • 强化学习:通过动态交互学习序列决策,依赖延迟奖励信号。

概念理解

强化学习

目前的强化学习主要还是通过模型的参数更新来对其进行优化。冻结主模型参数,通过外部策略模块进行优化的方式还是比较少。而后者也更像模型微调。但无论前者还是后者的强化学习训练方式,其本质都是对"策略流"进行最终判定(延时反馈,如AlphaGo下围棋,要通过最终的输赢确定奖励信号的正负),而不是最标注数据进行的实时loss反馈,感觉这是强化学习和微调的主要区别。

如果说微调是通过更加精细化的训练模型某一方面的工作能力(细致的,定性的基础上的定量能力),那么强化学习更像是在加强模型判断是非的能力(因为强化学习的训练过程注重最终结果),一种定性而不定量的能力(相对于微调获得的能力,更加的抽象、相对模糊的一种东西)

至于说强化学习使用的是动态交互产生的奖励信息,不同于静态标注数据,这一点我感觉而这并没有本质上的差别(都是标注数据)。数据上的差别仅仅是稀疏与密集的区别。

无监督:为什么大模型的训练都要先进行大规模的无监督训练

无监督损失的原理基于数据自身的统计特性或几何规律,目标是捕捉数据内在结构或分布特征。像是刚出生的婴儿要通过吸收到的信号(图像、声音、文字等等),取获取提取特征的能力,比如区分颜色、区分形状(当然语言对于这些知识的描述是人类对这种信息的浅层表达)。

大模型相较于人类有更强的计算能力,所以通过海量数据+统计特征提取,可以使模型对世界上的信息形成更加"抽象"(高维度)的理解。(统计特征可以反映出很多事务的本质)

统计+抽象 = 知识

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值