- 博客(12)
- 收藏
- 关注
原创 Windows 下 Cursor 无法登陆
由于默认浏览器非Chrome,需要将系统的默认浏览器设置为Chrome。设置后点击重新点击登陆即可。Windows 下在使用Cursor 时,点击Setting 下的Login 无反应。
2025-02-25 21:21:03
1065
原创 【强化学习】周博磊 第6章 优化策略的进阶
详细推导 https://wiseodd.github.io/techblog/2018/03/14/natural-gradient/对于policy 的函数形式过于敏感,不同的softmax,gaussian都会导致不同的优化结果。x是基于p分布采样得到的数据,我们可以通过q分布采样得到数据,使用p q间的概率比值来重新娇艳结果。固定KL在一个常数c内,可以保证我们的分布以常数的速度进行优化。,是fisher information matrix 也是KL散度的二阶导数。在分布空间最大的提升。
2023-10-07 23:07:55
106
1
原创 【强化学习】周博磊第5章 策略优化基础
可以从Monte Carlo policy gradient 获得,虽然是无偏的,但是噪音过大。动作是连续的话:Gaussian Policy 动作服从正太分布。baseline b(s)可以减少方差,而不改变期望。Policy-based的RL是一个最优的随机策略。基于Value-Based的RL学到是确定性策略。动作是离散化的话:Softmax Policy。假设下面的环境中无法区分灰色的grid。在连续的环境上:要知道转移矩阵。我们的优化目标就是找出最优的。如果是一个可微分的函数,
2023-08-12 16:46:29
179
1
原创 【强化学习】周博磊第3章 无模型的价值估计和控制
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rngXFH0c-1690014648172)(img3/2023-07-22-11-39-49.png)]DP: 已知MDP,根据动态转移矩阵考虑后续所有状态,计算的状态的期望。TD:未知MDP,通过采样的方式进行。中采集数据并且学习,即目标策略和行动策略同样都是。更新目标策略真的实际采样,目标策略和行为策略一致。更新目标策略未进行真实采样,Imagine最大的。通过叠加计算的方式很重要,后续的推导经常采用。
2023-07-22 16:37:38
141
原创 【强化学习】周博磊第2章 马尔科夫决策过程
马尔科夫决策过程相比与奖励过程,加入了动作。也就是说,未来的状态由当前状态和动作共同决定的。Markov 链/ MRP: 像随波漂流的小船。Markov 决策过程:可以采取导航行为的小船。Policy 是指在某一状态执行某一动作的概率。动态转移方程和奖励由当前状态与动作共同决定。已知MDP,寻找最优价值函数和策略。未来的状态只与当前的状态相关。最优函数可以通过寻找最大化。MDP, 计算价值函数。
2023-07-17 23:36:12
104
1
原创 ROI Pooling 和 ROI Align
ROI Pooling 和 ROI Align:ROI Pooling 和 ROI Pooling 都是将RPN 提取的特征变成固定大小的特征。ROI Pooling 在Faster RCNN 中使用,而ROI Align 在Mask RCNN 中使用。ROI Align 可以看做ROI Pooling 的改进版,减少了对应到原始图像的像素偏差。下面的几个博客讲解的很好,可作为学习路线的参考。ROI Pooling 计算方法:https://blog.youkuaiyun.com/u0114364.
2020-05-31 17:02:45
239
原创 NMS(Non-Maximum Suppression)非极大抑制的几种写法
NMS(Non-Maximum Suppression)非极大抑制的几种写法dets矩阵, thresh阈值定义:import numpy as npimport tensorflow as tfimport torchdets = np.array([[30, 20, 230, 200, 1], [50, 50, 260, 220, 0.9], [210, 30, 420, 5, 0.8], .
2020-05-24 17:08:30
559
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人