笑春风3396815-优快云博客

原创＜机器学习＞第五章阅读

神经元模型:每个神经元都接收到其他n个神经元的输入信号,将神经元接收到的总输入值与神经元的阈值作比较,当输入值大于阈值时，神经元就被激活，产生一个输出信号,最后通过。神经元模型内层是线性的,外层是非线性的激活函数,激活函数作用是让神经网络能够表示非线性关系,通过不断的学习,就能得到输入与输出之间的非线性关系。全局最小是局部最小的一种特殊情况，全局最小意味着在整个参数空间中找到的最优解，而局部最小是在某邻域内的最优解，所以可能存在多个局部最小点。由下图可知,当总输入值小于阈值时,映射为0,反之为1。

2024-08-01 10:49:45 1564

原创蒙特卡洛MC算法

但是对于一个无模型的算法（MC）而言，状态价值大小就仅仅只能说明策略π在当前状态下的优劣，但继续执行这个策略能否获得最大的未来奖励总和是未知的,对未来状态的影响也是未知的。这意味着行动策略选择的这个动作在目标策略下的相对重要性较高，我们应该增加这个动作价值的权重，使其更好地反映目标策略下的期望回报，也就是这个动作成为最优动作的可能性较高。方法：策略迭代流程与上述试探性出发的MC策略迭代一致，但是对于贪心动作以外的每一个动作，会以（ε/S）的概率选中，对于贪心动作，会以1-ε+（ε/S）的概率选中。

2024-07-31 16:10:04 731

原创动态规划,DP

word文档不能直接复制过来,请直接下载。

2024-07-30 09:05:36 336

原创策略梯度和演员评论家

但是θ是通过神经网络来参数化策略π的，那么θ应该是一个多维的参数向量，包括神经网络的隐层之间的连接权重与神经元的阈值。策略的好坏是通过所有状态下的期望价值来衡量的，不仅仅是当下状态的价值。回到最后一个问题，一开始看到w的更新式子的时候我觉得很奇怪，因为Critic价值网络训练方式我们在DQN中已经了解过了，是w对损失函数作梯度下降，但现在这里却是一个梯度上升的表达式，为什么？在策略梯度中，策略函数就是我们的Actor，但是那里是没有Critic的，我们当时使用了蒙特卡罗法来采样得到真实回报G（t）。

2024-07-29 10:42:47 1381

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_70251770的博客

原创＜机器学习＞第五章阅读

原创蒙特卡洛MC算法

原创动态规划,DP

原创策略梯度和演员评论家

原创 DDQN笔记,传递灵感给大家

原创支持向量机,西瓜书第六章笔记

西瓜书第五章,标题1个字

蒙特卡洛MC算法,标题11个字

动态规划,标题11个字

策略梯度和演员评论家传递灵感

DQN笔记,标题一定要11个字吗

西瓜书第六章读书笔记,标题11个字

空空如也

原创 ＜机器学习＞第五章阅读

原创 蒙特卡洛MC算法

原创 动态规划,DP

原创 策略梯度和演员评论家

原创 DDQN笔记,传递灵感给大家

原创 支持向量机,西瓜书第六章笔记

西瓜书第五章,标题1个字

蒙特卡洛MC算法,标题11个字

动态规划,标题11个字

策略梯度和演员评论家 传递灵感

DQN笔记,标题一定要11个字吗

西瓜书第六章读书笔记,标题11个字

空空如也

原创＜机器学习＞第五章阅读

原创蒙特卡洛MC算法

原创动态规划,DP

原创策略梯度和演员评论家

原创支持向量机,西瓜书第六章笔记

策略梯度和演员评论家传递灵感