SHAOKANGWU-优快云博客

原创 First visit and every visit MC

今天写RL中的MC算法的时候，卡在了First visit和Every visit这两种算法的区别上。一直没搞懂什么意思这里因为有多个episode，每一个episode中使用第一次出现的Q(S,A)当做这个episode中的Q值，对多个episode中出现的Q(S,A)求和，然后分母是有多少个episode含有这个pair(S,A) 下面附上转载的代码： updated_values = {} ### PUT YOUR CODE HERE ### .

2022-03-29 21:58:59 1010 1

原创 Q learning

今天继续写RL的exercise2，发现Q learning一直不收敛。本来就是个很简单的算法，改了好久都不知道fault在哪里，一开始以为是超参数调的不好，结果调了好久的参数都不行。后来发现自己犯了个错误： target = reward + int(done) * self.gamma * max_action_q new_estimate = old_estimate + self.alpha * (target - old_estimate) 注意这里，不应该是int(done)，int(n

2022-03-27 16:24:53 586

原创 MDP， Value iteration and Policy Iteration

今天抽空写了写之前RL旁听课的exercise1，主要包含了马尔科夫决策过程，值迭代以及策略迭代。具体的伪代码略，下面直接附上代码 from abc import ABC, abstractmethod import numpy as np from typing import List, Tuple, Dict, Optional, Hashable from rl2021.utils import MDP, Transition, State, Action class MDPSolver

2022-03-24 21:54:29 1348

原创 [2021-10-15] Residual Attention Network in Image Classification PyTorch 小结

Residual Attention Network in Image Classification PyTorch 小结Residual Attention Network整体的网络结构Attention Module Residual Attention Network 论文地址: http://openaccess.thecvf.com/content_cvpr_2017/html/Wang_Residual_Attention_Network_CVPR_2017_paper.html 整体的网络结构

2021-10-15 10:38:45 539

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人