自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 <机器学习>第五章阅读

神经元模型:每个神经元都接收到其他n个神经元的输入信号,将神经元接收到的总输入值与神经元的阈值作比较,当输入值大于阈值时,神经元就被激活,产生一个输出信号,最后通过。神经元模型内层是线性的,外层是非线性的激活函数,激活函数作用是让神经网络能够表示非线性关系,通过不断的学习,就能得到输入与输出之间的非线性关系。全局最小是局部最小的一种特殊情况,全局最小意味着在整个参数空间中找到的最优解,而局部最小是在某邻域内的最优解,所以可能存在多个局部最小点。由下图可知,当总输入值小于阈值时,映射为0,反之为1。

2024-08-01 10:49:45 1564

原创 蒙特卡洛MC算法

但是对于一个无模型的算法(MC)而言,状态价值大小就仅仅只能说明策略π在当前状态下的优劣,但继续执行这个策略能否获得最大的未来奖励总和是未知的,对未来状态的影响也是未知的。这意味着行动策略选择的这个动作在目标策略下的相对重要性较高,我们应该增加这个动作价值的权重,使其更好地反映目标策略下的期望回报,也就是这个动作成为最优动作的可能性较高。方法:策略迭代流程与上述试探性出发的MC策略迭代一致,但是对于贪心动作以外的每一个动作,会以(ε/S)的概率选中,对于贪心动作,会以1-ε+(ε/S)的概率选中。

2024-07-31 16:10:04 731

原创 动态规划,DP

word文档不能直接复制过来,请直接下载。

2024-07-30 09:05:36 336

原创 策略梯度和演员评论家

但是θ是通过神经网络来参数化策略π的,那么θ应该是一个多维的参数向量,包括神经网络的隐层之间的连接权重与神经元的阈值。策略的好坏是通过所有状态下的期望价值来衡量的,不仅仅是当下状态的价值。回到最后一个问题,一开始看到w的更新式子的时候我觉得很奇怪,因为Critic价值网络训练方式我们在DQN中已经了解过了,是w对损失函数作梯度下降,但现在这里却是一个梯度上升的表达式,为什么?在策略梯度中,策略函数就是我们的Actor,但是那里是没有Critic的,我们当时使用了蒙特卡罗法来采样得到真实回报G(t)。

2024-07-29 10:42:47 1381

原创 DDQN笔记,传递灵感给大家

举个例子,首先我们已经知道动作选择时选出的动作是有偏的(因为初始状态动作价值未收敛,加上Q-learning使用的更新公式是贪心的),有偏指的是被选择的动作名义上虽然是所有动作中价值最高的,但是肯定是被高估了的。这是因为,价值评估交给了另一个新的网络去做了,在这个新的网络中,根据旧网络由贪心原则选出来的动作价值可能不是最大的,但新网络仍要选择这个。回看Q-learning更新所用到的贝尔曼最优动作价值方程,Q值的更新依赖于在下一状态能得到最大回报的动作,这可能会导致Q值的乐观估计。

2024-07-28 19:33:31 547

原创 支持向量机,西瓜书第六章笔记

至于偏移项b,则通过支持向量的判定式求解,因为对于任意支持向量(xi,yi),都有f(xi)×yi=1,然后得到b的平均值作为最终解。=1(令支持向量离超平面的函数间隔=1,可以简化目标函数),其实是一种规范化的做法,其他样本点到超平面的距离便可由此确定。解左式意味着要计算两者乘积,由于映射后的特征空间的维数未知,可能非常高,因此计算这两个矩阵相乘会很困难,所以引入核函数。此时引入核函数,其价值在于虽然它也是将特征进行从低维到高维的转换,但它事先在低维上进行计算,而将实质上的。

2024-07-25 20:04:10 650

西瓜书第五章,标题1个字

我的目的是传递灵感

2024-08-01

蒙特卡洛MC算法,标题11个字

我的目的是传递灵感

2024-07-31

动态规划,标题11个字

我的目的是传递灵感

2024-07-30

策略梯度和演员评论家 传递灵感

传递灵感

2024-07-29

DQN笔记,标题一定要11个字吗

我的目的是传递灵感,仅此而已

2024-07-28

西瓜书第六章读书笔记,标题11个字

西瓜书第六章读书笔记,标题11个字

2024-07-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除