- 博客(30)
- 收藏
- 关注
原创 好奇心机制总结
好奇心机制总结好奇心主要就是解决由于奖励稀疏而造成强化学习困难的问题,本质上就是用各种额外的bonus使奖励变成一个连续的奖励文章 EPISODIC CURIOSITY THROUGH REACHABILITY ICLR 2019计算当前的动作与replay buffer里面之前全部的动作之间的相似度(使用一个神经网络进行计算),而后给一个bonus奖励其中,比较网络为ci=C(ei,e),i=1,∣M∣c_i=C(e_i,e),i=1,|M|ci=C(ei,e),i=1,∣M∣,选择C
2022-05-05 15:43:34
1171
原创 程序人生-Hello’s P2P
通过结合计算机系统课程知识,并使用edb等工具,研究hello程序在ubuntu系统下的P2P和020过程,演示Linux下程序的生命周期。同时这可以成为我们对计算机系统这门课的复习,对计算机系统考试很有帮助。关键词:编译;链接;可重定向文件;进程;I/O;
2019-12-29 10:22:49
434
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人