- 博客(4)
- 收藏
- 关注
原创 First visit and every visit MC
今天写RL中的MC算法的时候,卡在了First visit和Every visit这两种算法的区别上。一直没搞懂什么意思这里因为有多个episode,每一个episode中使用第一次出现的Q(S,A)当做这个episode中的Q值,对多个episode中出现的Q(S,A)求和,然后分母是有多少个episode含有这个pair(S,A)下面附上转载的代码: updated_values = {} ### PUT YOUR CODE HERE ### .
2022-03-29 21:58:59
892
1
原创 Q learning
今天继续写RL的exercise2,发现Q learning一直不收敛。本来就是个很简单的算法,改了好久都不知道fault在哪里,一开始以为是超参数调的不好,结果调了好久的参数都不行。后来发现自己犯了个错误:target = reward + int(done) * self.gamma * max_action_qnew_estimate = old_estimate + self.alpha * (target - old_estimate)注意这里,不应该是int(done),int(n
2022-03-27 16:24:53
515
原创 MDP, Value iteration and Policy Iteration
今天抽空写了写之前RL旁听课的exercise1,主要包含了马尔科夫决策过程,值迭代以及策略迭代。具体的伪代码略,下面直接附上代码from abc import ABC, abstractmethodimport numpy as npfrom typing import List, Tuple, Dict, Optional, Hashablefrom rl2021.utils import MDP, Transition, State, Actionclass MDPSolver
2022-03-24 21:54:29
1267
原创 [2021-10-15] Residual Attention Network in Image Classification PyTorch 小结
Residual Attention Network in Image Classification PyTorch 小结Residual Attention Network整体的网络结构Attention ModuleResidual Attention Network论文地址: http://openaccess.thecvf.com/content_cvpr_2017/html/Wang_Residual_Attention_Network_CVPR_2017_paper.html整体的网络结构
2021-10-15 10:38:45
466
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人