自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 强化学习时怎么进行数据管理?

# 强化学习分为on-policy和off-policy。从数据的角度来说,不同之处就在于数据是不是一次性的,对于on-policy就是一次性的,用完就扔,对于off-poilcy来说就是有一个大buffer来存放数据,用了一次还可以再用很多次。那么数据如何有效方便存储就是一个问题。使用deque,dataset,dict存储数据。

2023-12-19 14:10:50 448 1

原创 神经网络初始化

对于同一层网络,如果输入和输出的方差相差很大,那么就容易造成梯度消失或者爆炸。所以对于同一层来说,最好其输入和输出的方差不多,如果输入数据是正太分布,那么输出数据也最好是正太分布,根据计算Var(y)=Var(w1*x+w2*x+...), w和x独立,且Var(x)=1,要使得Var(y)=1,就有Var(w)=1/n。但是以上过程是正向传播,还要考虑到反向传播,当是反向传播的过程就应该是,Var(w}=1/m。而网络参数有W和b两个参数,其中W是参与网络反向传播,但是B没有。

2023-12-19 10:22:20 407 1

原创 On-policy 调参。学习论文总结(WHAT MATTERS FOR ON-POLICY DEEP ACTOR-CRITIC METHODS? A LARGE-SCALE STUDY)

这篇文章就是要解决论文和实践之间的差距。文章在一个统一的on-policy deep actor-critic框架中实施了50多项“选择”,使我们能够在一项大规模的实证研究中调查它们的影响。我们在五个不同复杂度的。

2023-12-18 16:28:57 438 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除