自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 机器学习-决策树

决策树是一种。

2025-04-14 21:07:34 821

原创 最大似然估计

线性回归中的最大似然估计通过假设误差服从正态分布,将参数估计转化为最大化数据的联合概率问题。设定线性模型与误差分布;构建似然函数并转换为对数形式;对参数求导并解正规方程;得到参数估计(与OLS结果一致)。MLE不仅提供了参数估计方法,还为线性回归的统计推断(如t检验、F检验)奠定了理论基础,是连接回归模型与概率统计的重要桥梁。

2025-04-13 20:03:52 547

原创 大数据-数据分析治理

2025-04-13 16:41:33 248

原创 强化学习-PPO算法详解

近端策略优化(Proximal Policy Optimization, PPO)是强化学习中的一种高效策略优化算法,由OpenAI于2017年提出。其核心目标是提升训练稳定性和样本效率,尤其适用于复杂环境下的连续控制任务。

2025-04-12 15:37:19 891

原创 强化学习-TRPO算法详解

TRPO(信任区域策略优化)是一种基于策略梯度的强化学习算法,由John Schulman等人在2015年提出。其核心思想是通过限制策略更新的幅度,确保新策略的性能不会显著下降,从而提升训练稳定性。以下是TRPO的详细介绍:在强化学习中,策略优化的目标是找到一个策略 πθ(a∣s)\pi_\theta(a|s)πθ​(a∣s),使得期望累积回报最大化:J(θ)=Eτ∼πθ[∑t=0∞γtr(st,at)],J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \le

2025-04-12 14:19:39 921

原创 强化学习-Chapter10-Actor-Critic Methods

Actor-critic方法仍然是策略梯度方法。什么是“actor”和“critic”?Actor - Critic 算法结合了策略梯度(Actor)和值函数估计(Critic)两种方法。Actor 负责根据当前策略选择动作,而 Critic 负责评估这些动作的价值,二者相互协作以优化策略。我们可以从这个算法中看到“actor”和“critic”:如何获取 qt(st,at)q_t(s_t, a_t)qt​(st​,at​)?到目前为止,我们研究了两种估计动作值的方法:注意:接下来,我们延伸QAC到A2C,

2025-04-08 21:06:06 495

原创 强化学习-Chapter9-策略梯度

以前,策略是通过表格表示的:现在,策略可以通过参数化函数表示:π(a∣s,θ)π(a|s, θ)π(a∣s,θ),其中θ∈Rmθ ∈ ℝᵐθ∈Rm是一个参数向量。该函数可以是,例如,一个神经网络,其输入是s,输出是采取每个动作的概率,参数是θθθ。优势:当状态空间很大时,表格表示在存储和泛化方面效率低下。函数表示有时也写作π(a,s,θ)π(a, s, θ)π(a,s,θ)、πθ(a∣s)π_θ(a|s)πθ​(a∣s)或πθ(a,s)π_θ(a, s)πθ​(a,s)。表格和函数表示之间的差异:策略梯度的

2025-04-02 21:08:37 728

原创 强化学习-Chapter8-价值函数的近似法&DQN

JwEvπS−vSw2JwE[(vπ​S−vSw2该目标函数表明这是一个策略评估问题。

2025-03-30 22:00:28 759

原创 强化学习-chapter7-时间差分学习-2-Qlearning

Sarsa 能够估计给定策略的动作值,它必须与策略改进步骤相结合,才能找到最优策略。Q-learning可以直接估计最优动作值,进而得到最优策略。

2025-03-30 16:34:30 557

原创 强化学习-chapter7-时间差分学习-1-Sarsa

接下来我们考虑一些随机问题,并展示如何使用RM算法来解决它们。首先,考虑简单的均值估计问题:计算w=E[X]w = \mathbb{E}[X]w=E[X]基于X的一些独立同分布样本{x}。g(w)=0g(w) = 0g(w)=0g~(w,η)=w−x=(w−E[X])+(E[X]−x)≐g(w)+η\tilde{g}(w,η) = w - x = (w - \mathbb{E}[X]) + (\mathbb{E}[X] - x) \doteq g(w) + ηg~​(w,η)=w−x=(w−E[X])+(E

2025-03-29 16:55:59 803

原创 随机近似估计和随机梯度下降

从RM算法到随机梯度下降算法

2025-03-23 21:33:54 248

原创 强化学习-Chapter4-值迭代和策略迭代

根据收缩函数的性质,可以得到贝尔曼最优方程的求解方式:上式的可以任意取值,最终可以成功找到最优的策略,这个算法称为值迭代可以分成两步:步骤一:策略更新:解释:对于任意取值的,即初始化可以任取状态值,我们能算出每个状态下采用不同action得到的action value,即q(v,a),那么我们选取最大的q(v,a)对应的action,作为新的策略步骤二:值更新:解释:由步骤一得到的新策略,那么根据这个新策略,我们可以算出这个策略下的(因为是由该策略下采取的action的reward即。

2025-03-15 15:39:29 293

原创 强化学习-Chpater5-蒙特卡洛学习

2、无模型的情况下,我们只能通过黑盒的方式不停的抛硬币得到一组样本序列,比如是{1,1,1,0,1,0,......}记为{1、有模型的情况下,那么我们知道1和0的概率分别为0.5,可以得到期望为。以抛硬币为例,正面记为1,反面记为0。,这就是蒙特卡洛估计的思想。

2025-03-15 14:51:50 149

原创 强化学习-Chapter3-贝尔曼最优方程

状态价值可以用来描述当前策略的好坏,如果对于所有s,均有,那么说明π1策略比π2好最优策略π*表示,对于所有s和其他所有π都满足。

2025-03-13 17:56:56 234

原创 强化学习-Chapter2-贝尔曼方程

再进行:动作-状态全概率展开,相当于写出当前状态s到下一个所有可能的状态s’的转换概率,再根据转换概率求和。的贝尔曼方程展开形式,描述了当前状态价值与即时奖励、未来折扣价值的递归关系。: 时间从t到结束的累积奖赏,由于t时刻的奖励是采取行动后t+1时刻才拥有的,所以。的状态-动作值函数,即状态。的状态-值函数,即状态。

2025-03-11 21:13:11 761

原创 强化学习-Chapter1-基础概念

环境是智能体与之交互的世界,它定义了状态空间、动作空间、奖励规则以及状态转移的动态。环境可以是物理世界(如机器人控制)、虚拟世界(如游戏)或数学模型(如金融市场)。智能体是执行动作的主体,它在环境中观察状态,并根据策略决定要采取的行动。状态是环境在某一时刻的描述,它可以是离散的(如网格世界中的位置)或连续的(如机器人关节角度)。动作是智能体可以执行的操作集合,例如在迷宫中移动(上、下、左、右)、调整温度、控制游戏角色等。负奖励(−):惩罚某些行为,例如撞墙、失败或能量消耗过多。2)智能体(Agent)

2025-03-11 17:32:28 184

原创 Python实现图片的拼接,水平复制扩展和垂直复制

【代码】【无标题】

2023-07-19 14:07:37 259

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除