- 博客(6)
- 收藏
- 关注
原创 <机器学习>第五章阅读
神经元模型:每个神经元都接收到其他n个神经元的输入信号,将神经元接收到的总输入值与神经元的阈值作比较,当输入值大于阈值时,神经元就被激活,产生一个输出信号,最后通过。神经元模型内层是线性的,外层是非线性的激活函数,激活函数作用是让神经网络能够表示非线性关系,通过不断的学习,就能得到输入与输出之间的非线性关系。全局最小是局部最小的一种特殊情况,全局最小意味着在整个参数空间中找到的最优解,而局部最小是在某邻域内的最优解,所以可能存在多个局部最小点。由下图可知,当总输入值小于阈值时,映射为0,反之为1。
2024-08-01 10:49:45
1564
原创 蒙特卡洛MC算法
但是对于一个无模型的算法(MC)而言,状态价值大小就仅仅只能说明策略π在当前状态下的优劣,但继续执行这个策略能否获得最大的未来奖励总和是未知的,对未来状态的影响也是未知的。这意味着行动策略选择的这个动作在目标策略下的相对重要性较高,我们应该增加这个动作价值的权重,使其更好地反映目标策略下的期望回报,也就是这个动作成为最优动作的可能性较高。方法:策略迭代流程与上述试探性出发的MC策略迭代一致,但是对于贪心动作以外的每一个动作,会以(ε/S)的概率选中,对于贪心动作,会以1-ε+(ε/S)的概率选中。
2024-07-31 16:10:04
731
原创 策略梯度和演员评论家
但是θ是通过神经网络来参数化策略π的,那么θ应该是一个多维的参数向量,包括神经网络的隐层之间的连接权重与神经元的阈值。策略的好坏是通过所有状态下的期望价值来衡量的,不仅仅是当下状态的价值。回到最后一个问题,一开始看到w的更新式子的时候我觉得很奇怪,因为Critic价值网络训练方式我们在DQN中已经了解过了,是w对损失函数作梯度下降,但现在这里却是一个梯度上升的表达式,为什么?在策略梯度中,策略函数就是我们的Actor,但是那里是没有Critic的,我们当时使用了蒙特卡罗法来采样得到真实回报G(t)。
2024-07-29 10:42:47
1381
原创 DDQN笔记,传递灵感给大家
举个例子,首先我们已经知道动作选择时选出的动作是有偏的(因为初始状态动作价值未收敛,加上Q-learning使用的更新公式是贪心的),有偏指的是被选择的动作名义上虽然是所有动作中价值最高的,但是肯定是被高估了的。这是因为,价值评估交给了另一个新的网络去做了,在这个新的网络中,根据旧网络由贪心原则选出来的动作价值可能不是最大的,但新网络仍要选择这个。回看Q-learning更新所用到的贝尔曼最优动作价值方程,Q值的更新依赖于在下一状态能得到最大回报的动作,这可能会导致Q值的乐观估计。
2024-07-28 19:33:31
547
原创 支持向量机,西瓜书第六章笔记
至于偏移项b,则通过支持向量的判定式求解,因为对于任意支持向量(xi,yi),都有f(xi)×yi=1,然后得到b的平均值作为最终解。=1(令支持向量离超平面的函数间隔=1,可以简化目标函数),其实是一种规范化的做法,其他样本点到超平面的距离便可由此确定。解左式意味着要计算两者乘积,由于映射后的特征空间的维数未知,可能非常高,因此计算这两个矩阵相乘会很困难,所以引入核函数。此时引入核函数,其价值在于虽然它也是将特征进行从低维到高维的转换,但它事先在低维上进行计算,而将实质上的。
2024-07-25 20:04:10
650
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人