- 博客(17)
- 收藏
- 关注
原创 最大似然估计
线性回归中的最大似然估计通过假设误差服从正态分布,将参数估计转化为最大化数据的联合概率问题。设定线性模型与误差分布;构建似然函数并转换为对数形式;对参数求导并解正规方程;得到参数估计(与OLS结果一致)。MLE不仅提供了参数估计方法,还为线性回归的统计推断(如t检验、F检验)奠定了理论基础,是连接回归模型与概率统计的重要桥梁。
2025-04-13 20:03:52
547
原创 强化学习-PPO算法详解
近端策略优化(Proximal Policy Optimization, PPO)是强化学习中的一种高效策略优化算法,由OpenAI于2017年提出。其核心目标是提升训练稳定性和样本效率,尤其适用于复杂环境下的连续控制任务。
2025-04-12 15:37:19
891
原创 强化学习-TRPO算法详解
TRPO(信任区域策略优化)是一种基于策略梯度的强化学习算法,由John Schulman等人在2015年提出。其核心思想是通过限制策略更新的幅度,确保新策略的性能不会显著下降,从而提升训练稳定性。以下是TRPO的详细介绍:在强化学习中,策略优化的目标是找到一个策略 πθ(a∣s)\pi_\theta(a|s)πθ(a∣s),使得期望累积回报最大化:J(θ)=Eτ∼πθ[∑t=0∞γtr(st,at)],J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \le
2025-04-12 14:19:39
921
原创 强化学习-Chapter10-Actor-Critic Methods
Actor-critic方法仍然是策略梯度方法。什么是“actor”和“critic”?Actor - Critic 算法结合了策略梯度(Actor)和值函数估计(Critic)两种方法。Actor 负责根据当前策略选择动作,而 Critic 负责评估这些动作的价值,二者相互协作以优化策略。我们可以从这个算法中看到“actor”和“critic”:如何获取 qt(st,at)q_t(s_t, a_t)qt(st,at)?到目前为止,我们研究了两种估计动作值的方法:注意:接下来,我们延伸QAC到A2C,
2025-04-08 21:06:06
495
原创 强化学习-Chapter9-策略梯度
以前,策略是通过表格表示的:现在,策略可以通过参数化函数表示:π(a∣s,θ)π(a|s, θ)π(a∣s,θ),其中θ∈Rmθ ∈ ℝᵐθ∈Rm是一个参数向量。该函数可以是,例如,一个神经网络,其输入是s,输出是采取每个动作的概率,参数是θθθ。优势:当状态空间很大时,表格表示在存储和泛化方面效率低下。函数表示有时也写作π(a,s,θ)π(a, s, θ)π(a,s,θ)、πθ(a∣s)π_θ(a|s)πθ(a∣s)或πθ(a,s)π_θ(a, s)πθ(a,s)。表格和函数表示之间的差异:策略梯度的
2025-04-02 21:08:37
728
原创 强化学习-chapter7-时间差分学习-2-Qlearning
Sarsa 能够估计给定策略的动作值,它必须与策略改进步骤相结合,才能找到最优策略。Q-learning可以直接估计最优动作值,进而得到最优策略。
2025-03-30 16:34:30
557
原创 强化学习-chapter7-时间差分学习-1-Sarsa
接下来我们考虑一些随机问题,并展示如何使用RM算法来解决它们。首先,考虑简单的均值估计问题:计算w=E[X]w = \mathbb{E}[X]w=E[X]基于X的一些独立同分布样本{x}。g(w)=0g(w) = 0g(w)=0g~(w,η)=w−x=(w−E[X])+(E[X]−x)≐g(w)+η\tilde{g}(w,η) = w - x = (w - \mathbb{E}[X]) + (\mathbb{E}[X] - x) \doteq g(w) + ηg~(w,η)=w−x=(w−E[X])+(E
2025-03-29 16:55:59
803
原创 强化学习-Chapter4-值迭代和策略迭代
根据收缩函数的性质,可以得到贝尔曼最优方程的求解方式:上式的可以任意取值,最终可以成功找到最优的策略,这个算法称为值迭代可以分成两步:步骤一:策略更新:解释:对于任意取值的,即初始化可以任取状态值,我们能算出每个状态下采用不同action得到的action value,即q(v,a),那么我们选取最大的q(v,a)对应的action,作为新的策略步骤二:值更新:解释:由步骤一得到的新策略,那么根据这个新策略,我们可以算出这个策略下的(因为是由该策略下采取的action的reward即。
2025-03-15 15:39:29
293
原创 强化学习-Chpater5-蒙特卡洛学习
2、无模型的情况下,我们只能通过黑盒的方式不停的抛硬币得到一组样本序列,比如是{1,1,1,0,1,0,......}记为{1、有模型的情况下,那么我们知道1和0的概率分别为0.5,可以得到期望为。以抛硬币为例,正面记为1,反面记为0。,这就是蒙特卡洛估计的思想。
2025-03-15 14:51:50
149
原创 强化学习-Chapter3-贝尔曼最优方程
状态价值可以用来描述当前策略的好坏,如果对于所有s,均有,那么说明π1策略比π2好最优策略π*表示,对于所有s和其他所有π都满足。
2025-03-13 17:56:56
234
原创 强化学习-Chapter2-贝尔曼方程
再进行:动作-状态全概率展开,相当于写出当前状态s到下一个所有可能的状态s’的转换概率,再根据转换概率求和。的贝尔曼方程展开形式,描述了当前状态价值与即时奖励、未来折扣价值的递归关系。: 时间从t到结束的累积奖赏,由于t时刻的奖励是采取行动后t+1时刻才拥有的,所以。的状态-动作值函数,即状态。的状态-值函数,即状态。
2025-03-11 21:13:11
761
原创 强化学习-Chapter1-基础概念
环境是智能体与之交互的世界,它定义了状态空间、动作空间、奖励规则以及状态转移的动态。环境可以是物理世界(如机器人控制)、虚拟世界(如游戏)或数学模型(如金融市场)。智能体是执行动作的主体,它在环境中观察状态,并根据策略决定要采取的行动。状态是环境在某一时刻的描述,它可以是离散的(如网格世界中的位置)或连续的(如机器人关节角度)。动作是智能体可以执行的操作集合,例如在迷宫中移动(上、下、左、右)、调整温度、控制游戏角色等。负奖励(−):惩罚某些行为,例如撞墙、失败或能量消耗过多。2)智能体(Agent)
2025-03-11 17:32:28
184
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人