Rsbs-优快云博客

原创最大似然估计

线性回归中的最大似然估计通过假设误差服从正态分布，将参数估计转化为最大化数据的联合概率问题。设定线性模型与误差分布；构建似然函数并转换为对数形式；对参数求导并解正规方程；得到参数估计（与OLS结果一致）。MLE不仅提供了参数估计方法，还为线性回归的统计推断（如t检验、F检验）奠定了理论基础，是连接回归模型与概率统计的重要桥梁。

2025-04-13 20:03:52 547

原创强化学习-PPO算法详解

近端策略优化（Proximal Policy Optimization, PPO）是强化学习中的一种高效策略优化算法，由OpenAI于2017年提出。其核心目标是提升训练稳定性和样本效率，尤其适用于复杂环境下的连续控制任务。

2025-04-12 15:37:19 891

TRPO（信任区域策略优化）是一种基于策略梯度的强化学习算法，由John Schulman等人在2015年提出。其核心思想是通过限制策略更新的幅度，确保新策略的性能不会显著下降，从而提升训练稳定性。以下是TRPO的详细介绍：在强化学习中，策略优化的目标是找到一个策略 πθ(a∣s)\pi_\theta(a|s)πθ(a∣s)，使得期望累积回报最大化：J(θ)=Eτ∼πθ[∑t=0∞γtr(st,at)],J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \le

2025-04-12 14:19:39 921

原创强化学习-Chapter10-Actor-Critic Methods

Actor-critic方法仍然是策略梯度方法。什么是“actor”和“critic”？Actor - Critic 算法结合了策略梯度（Actor）和值函数估计（Critic）两种方法。Actor 负责根据当前策略选择动作，而 Critic 负责评估这些动作的价值，二者相互协作以优化策略。我们可以从这个算法中看到“actor”和“critic”：如何获取 qt(st,at)q_t(s_t, a_t)qt(st,at)？到目前为止，我们研究了两种估计动作值的方法：注意：接下来，我们延伸QAC到A2C，

2025-04-08 21:06:06 495

原创强化学习-Chapter9-策略梯度

以前，策略是通过表格表示的：现在，策略可以通过参数化函数表示：π(a∣s,θ)π(a|s, θ)π(a∣s,θ)，其中θ∈Rmθ ∈ ℝᵐθ∈Rm是一个参数向量。该函数可以是，例如，一个神经网络，其输入是s，输出是采取每个动作的概率，参数是θθθ。优势：当状态空间很大时，表格表示在存储和泛化方面效率低下。函数表示有时也写作π(a,s,θ)π(a, s, θ)π(a,s,θ)、πθ(a∣s)π_θ(a|s)πθ(a∣s)或πθ(a,s)π_θ(a, s)πθ(a,s)。表格和函数表示之间的差异：策略梯度的

2025-04-02 21:08:37 728

原创强化学习-Chapter8-价值函数的近似法&DQN

JwEvπS−vSw2JwE[(vπS−vSw2该目标函数表明这是一个策略评估问题。

2025-03-30 22:00:28 759

原创强化学习-chapter7-时间差分学习-2-Qlearning

Sarsa 能够估计给定策略的动作值，它必须与策略改进步骤相结合，才能找到最优策略。Q-learning可以直接估计最优动作值，进而得到最优策略。

2025-03-30 16:34:30 557

原创强化学习-chapter7-时间差分学习-1-Sarsa

接下来我们考虑一些随机问题,并展示如何使用RM算法来解决它们。首先,考虑简单的均值估计问题:计算w=E[X]w = \mathbb{E}[X]w=E[X]基于X的一些独立同分布样本{x}。g(w)=0g(w) = 0g(w)=0g~(w,η)=w−x=(w−E[X])+(E[X]−x)≐g(w)+η\tilde{g}(w,η) = w - x = (w - \mathbb{E}[X]) + (\mathbb{E}[X] - x) \doteq g(w) + ηg~(w,η)=w−x=(w−E[X])+(E

2025-03-29 16:55:59 803

原创随机近似估计和随机梯度下降

从RM算法到随机梯度下降算法

2025-03-23 21:33:54 248

原创强化学习-Chapter4-值迭代和策略迭代

根据收缩函数的性质，可以得到贝尔曼最优方程的求解方式：上式的可以任意取值，最终可以成功找到最优的策略，这个算法称为值迭代可以分成两步：步骤一：策略更新：解释：对于任意取值的，即初始化可以任取状态值，我们能算出每个状态下采用不同action得到的action value，即q(v,a)，那么我们选取最大的q(v,a)对应的action，作为新的策略步骤二：值更新：解释：由步骤一得到的新策略，那么根据这个新策略，我们可以算出这个策略下的（因为是由该策略下采取的action的reward即。

2025-03-15 15:39:29 293

原创强化学习-Chpater5-蒙特卡洛学习

2、无模型的情况下，我们只能通过黑盒的方式不停的抛硬币得到一组样本序列，比如是{1,1,1,0,1,0,......}记为{1、有模型的情况下，那么我们知道1和0的概率分别为0.5，可以得到期望为。以抛硬币为例，正面记为1，反面记为0。，这就是蒙特卡洛估计的思想。

2025-03-15 14:51:50 149

原创强化学习-Chapter3-贝尔曼最优方程

状态价值可以用来描述当前策略的好坏，如果对于所有s，均有，那么说明π1策略比π2好最优策略π*表示，对于所有s和其他所有π都满足。

2025-03-13 17:56:56 234

原创强化学习-Chapter2-贝尔曼方程

再进行：动作-状态全概率展开，相当于写出当前状态s到下一个所有可能的状态s’的转换概率，再根据转换概率求和。的贝尔曼方程展开形式，描述了当前状态价值与即时奖励、未来折扣价值的递归关系。: 时间从t到结束的累积奖赏，由于t时刻的奖励是采取行动后t+1时刻才拥有的，所以。的状态-动作值函数，即状态。的状态-值函数，即状态。

2025-03-11 21:13:11 761

原创强化学习-Chapter1-基础概念

环境是智能体与之交互的世界，它定义了状态空间、动作空间、奖励规则以及状态转移的动态。环境可以是物理世界（如机器人控制）、虚拟世界（如游戏）或数学模型（如金融市场）。智能体是执行动作的主体，它在环境中观察状态，并根据策略决定要采取的行动。状态是环境在某一时刻的描述，它可以是离散的（如网格世界中的位置）或连续的（如机器人关节角度）。动作是智能体可以执行的操作集合，例如在迷宫中移动（上、下、左、右）、调整温度、控制游戏角色等。负奖励（−）：惩罚某些行为，例如撞墙、失败或能量消耗过多。2）智能体（Agent）

2025-03-11 17:32:28 184

原创 Python实现图片的拼接，水平复制扩展和垂直复制

【代码】【无标题】

2023-07-19 14:07:37 259

Rsbstep的博客

原创机器学习-决策树