
强化学习
Mariooooooooooo
这个作者很懒,什么都没留下…
展开
-
数学语言描述的一些规范
简而言之:1:相同点都表示定义等2:不同点是:“:=” 更适合于编程语言或是算法伪代码中表示三角等号:在论文写作中更适合原创 2025-04-28 09:24:36 · 181 阅读 · 0 评论 -
强化学习的分类
强化学习分两种:一种是片段式强化学习episodic reinforcement learning;一种是连续式强化学习(continuous reinforcement learning)原创 2025-01-23 00:19:12 · 181 阅读 · 0 评论 -
策略空间和动作空间
策略空间:强化学习中解决问题的解的空间集合。动作空间:是指所有的动作可能性的集合。原创 2025-01-23 00:14:55 · 131 阅读 · 0 评论 -
直接参数化和softmax参数化
均是对强化学习中的策略表示进行学习。原创 2025-01-07 20:08:44 · 113 阅读 · 0 评论 -
nn.LayerNorm(n_embd)可学习参数,以及如何参与运算的
nn.LayerNorm 是一个用于实现层归一化的模块。它的主要作用是对输入的特征进行归一化,以提高模型的训练稳定性和收敛速度。原创 2024-11-19 17:48:54 · 672 阅读 · 0 评论 -
gym中的动作空间含义
原创 2024-10-08 01:02:00 · 380 阅读 · 0 评论 -
FGSM算法原理
学习博客:https://www.jianshu.com/p/a366e984f74c。原创 2024-08-21 22:53:50 · 143 阅读 · 0 评论 -
策略迭代算法的收敛性证明
分为策略评估和策略改进两个部分。原创 2024-06-12 16:46:17 · 399 阅读 · 0 评论 -
策略迭代和值迭代的定义和区别
总的来说,策略迭代和值迭代都是解决MDP中最优策略的经典方法,它们在迭代方式和更新策略的顺序上有所不同。策略迭代(Policy Iteration)和值迭代(Value Iteration)是强化学习中常用的两种经典算法,用于解决马尔可夫决策过程(MDP)中的最优策略。策略迭代是一种交替进行策略评估和策略改进的方法。在每次迭代中,首先进行策略评估,估计当前策略的价值函数;然后进行策略改进,根据估计的价值函数更新策略。在每次迭代中,根据当前的价值函数进行贪婪策略改进,然后更新价值函数以获得更准确的估计。原创 2024-06-12 15:44:16 · 797 阅读 · 0 评论 -
Pytorch中的nn.Embedding()
Embedding.weight(Tensor)–形状模块(num_embeddings,Embedding_dim)的可学习权重,初始化自(0,1)。也就是说,pytorch的nn.Embedding()是可以自动学习每个词向量对应的w权重的。模块的输入是一个索引列表,输出是相应的词嵌入。原创 2024-04-06 23:18:13 · 426 阅读 · 0 评论 -
oracle value function in RL
oracle就是一个函数,这个函数知道每个状态的价值函数的真实值。我们寻找近似函数去拟合这个真值函数,并以这两个函数的差的平方为损失函数,最小化损失函数以此来寻找最佳近似函数。原创 2024-03-30 12:16:19 · 172 阅读 · 0 评论 -
最大似然=最小化KL散度
证明来源于李宏毅讲解的课件:原创 2024-03-19 21:50:38 · 178 阅读 · 0 评论 -
policy-space response oracles (PSRO)含义
Algorithm 1 维护了一个所有玩家策略的策略池。然后循环地选定玩家,然后从他的策略集中选择出一个策略,固定其它所有玩家此时的策略,然后不断地训练这个策略使得该策略成为一个在别的玩家策略不变的情况下、近似的best respond。然后将其加入策略集合中。原创 2024-03-05 14:34:25 · 566 阅读 · 0 评论 -
Nash equilibrium(纳什均衡)中的“exploitability“(可利用性)
在博弈论中,Nash equilibrium(纳什均衡)中的"exploitability"(可利用性)指的是在给定的策略配置下,某个玩家可以通过改变自己的策略来获得更高的收益或者改进自己的情况。如果一个纳什均衡点具有低可利用性,意味着在该点附近,没有玩家能够通过改变自己的策略来显著提高自己的收益。相反,如果一个纳什均衡点具有高可利用性,那么至少有一个玩家可以通过调整策略来获得更好的结果,从而使当前的均衡状态不稳定。原创 2024-03-04 16:14:50 · 475 阅读 · 0 评论 -
策略梯度算法
在策略梯度算法中,可以将策略梯度写成如下的形式:原创 2024-03-01 10:52:00 · 363 阅读 · 0 评论 -
最小二乘法
原创 2024-02-28 15:14:47 · 371 阅读 · 0 评论 -
Python导入自定义模块时ModuleNotFoundError问题
sys.path中是不包括当前这个module所在的目录的,因此要手动添加根目录。原创 2024-01-10 10:57:48 · 680 阅读 · 0 评论 -
神经网络输出的logstd?
神经网络输出的 logstd 通常是指预测的标准差(standard deviation)的对数值,在一些深度学习中,特别是在连续动作空间的强化学习任务中,通过神经网络输出动作的均值(mean)和标准差来表示一个分布,通常是高斯分布。那为什么不直接输出标准差std呢?由于标准差是非负的,为了使神经网络的输出在任意范围内都有效,通常会输出标准差的对数值而不是标准差本身。logstd 可以保证输出是实数域上的,而不会受到标准差必须是正数的限制。在实际使用中,可以通过指数运算来将 logstd 转换为标准差原创 2023-12-28 21:31:29 · 535 阅读 · 0 评论 -
min max函数讲解
1 对于min max函数的理解原创 2023-10-10 23:29:06 · 216 阅读 · 0 评论 -
时间差分误差,贝尔曼误差,
对状态求期望,是根据环境的真实状态模型。是环境的状态转移模型。对动作期望,动作是从策略。都确定的时候计算的结果。原创 2023-09-19 10:53:41 · 316 阅读 · 0 评论 -
Batch normalization和Layer normalization
BN是针对一个batch进行计算的,训练时自然可以根据batch计算,但是预测时有时要预测的是单个样本,此时要么认为batch size就是1,不进行标准化处理,要么是在训练时记录标准化操作的均值和方差直接应用到预测数据,这两种解决方案都不是很完美,都会存在偏差。在BN和LN都能使用的场景中,BN的效果一般优于LN,原因是基于不同数据,同一特征得到的归一化特征更不容易损失信息。这也就解答了RNN 或Transformer为什么用Layer Normalization?原创 2023-09-11 20:17:41 · 295 阅读 · 0 评论 -
通过.bash文件,顺序执行多个实验
【代码】通过.bash文件,顺序执行多个实验。原创 2023-09-01 16:05:35 · 197 阅读 · 0 评论 -
DPG算法
θμ。原创 2023-08-03 10:19:36 · 554 阅读 · 0 评论 -
sac算法对应代码部分
sac算法对应代码部分:更新Q值网络部分:更新策略网络部分:更新系数α部分。原创 2023-06-22 20:11:21 · 216 阅读 · 0 评论 -
贝尔曼方差和软贝尔曼方程
来自于张伟楠老师书籍。原创 2023-06-22 11:39:59 · 195 阅读 · 0 评论 -
值迭代和策略迭代
策略迭代包括两个部分:策略评估和策略改进。而值迭代是针对于策略迭代所存在的问题进行改进的,因为策略迭代需要先进行对策略评估收敛之后,才进行策略改进。值迭代的底层逻辑是,策略评估和策略改进可以同步的。因此可以将公式(4)转化为下面的公式(5),从而将值迭代转化为一个公式。原创 2023-06-21 23:23:47 · 160 阅读 · 0 评论 -
min-max函数优化目标
原创 2023-06-14 14:45:19 · 599 阅读 · 0 评论 -
如何证明迭代式策略评价、值迭代和策略迭代的收敛性?
思想:一般我们容易证明一个序列是柯西序列,如果又证明这个柯西序列是一个完备度量空间中,则根据完备度量空间中的柯西序列收敛性可以证明,是收敛的。这位作者写的很详细,尤其是对压缩映射,完备度量空间等概念介绍的很清楚。如何证明迭代式策略评价、值迭代和策略迭代的收敛性?原创 2023-04-24 17:17:15 · 220 阅读 · 0 评论 -
变分推断简单理解
1 需要搞清楚的几个问题1 .1 变分推断求的是什么变分推断(Variational Inference, VI)是贝叶斯近似推断的一种方法,将后验推断问题巧妙的转换为优化问题进行求解。贝叶斯公式求解posterior distributionPZ∣XPZ∣X∫zpXZzdzpXZ.这个公式难以求解的地方在于分母的求解,分母是一个积分,∫zpXZzdz,而Z通常是一个高维的随机变量,所以积分难求。其中Pxzpzpx∣。原创 2023-03-15 10:42:12 · 251 阅读 · 0 评论