- 博客(3)
- 收藏
- 关注
原创 强化学习时怎么进行数据管理?
# 强化学习分为on-policy和off-policy。从数据的角度来说,不同之处就在于数据是不是一次性的,对于on-policy就是一次性的,用完就扔,对于off-poilcy来说就是有一个大buffer来存放数据,用了一次还可以再用很多次。那么数据如何有效方便存储就是一个问题。使用deque,dataset,dict存储数据。
2023-12-19 14:10:50
448
1
原创 神经网络初始化
对于同一层网络,如果输入和输出的方差相差很大,那么就容易造成梯度消失或者爆炸。所以对于同一层来说,最好其输入和输出的方差不多,如果输入数据是正太分布,那么输出数据也最好是正太分布,根据计算Var(y)=Var(w1*x+w2*x+...), w和x独立,且Var(x)=1,要使得Var(y)=1,就有Var(w)=1/n。但是以上过程是正向传播,还要考虑到反向传播,当是反向传播的过程就应该是,Var(w}=1/m。而网络参数有W和b两个参数,其中W是参与网络反向传播,但是B没有。
2023-12-19 10:22:20
407
1
原创 On-policy 调参。学习论文总结(WHAT MATTERS FOR ON-POLICY DEEP ACTOR-CRITIC METHODS? A LARGE-SCALE STUDY)
这篇文章就是要解决论文和实践之间的差距。文章在一个统一的on-policy deep actor-critic框架中实施了50多项“选择”,使我们能够在一项大规模的实证研究中调查它们的影响。我们在五个不同复杂度的。
2023-12-18 16:28:57
438
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人