- 博客(3)
- 收藏
- 关注
原创 Search on the Replay Buffer: Bridging Planning and Reinforcement Learning论文简读
这篇论文提出了一种新颖的强化学习方法,旨在将计划(planning)和强化学习(reinforcement learning)相结合,以更好地利用回放缓冲区中的经验数据,提高学习效率和样本利用率。框架介绍:论文提出了一个名为 “Search on the Replay Buffer”(SORB)的框架,通过搜索回放缓冲区中的经验样本,来选择具有高度相关性的样本进行经验回放。它在经验回放的过程中,利用样本之间的相似性和依赖关系,选择更有价值的样本序列,用于训练和更新强化学习模型。
2023-07-30 15:03:05
190
翻译 非线性时间序列分析
目录序言1 我们为什么关注非线性1.1 基本概念1.2 线性时间序列1.3 非线性时间序列的例子1.4 非线性检验1.4.1 非参数检验1.4.2 参数检验1.5 练习参考文献2 单变量参数非线性模型2.1 一般的形式化表示2.1.1 概率结构2.2 门限自回归模型2.2.1 两阶段门限自回归模型2.2.2 两阶段TAR(1)模型的特征2.2.3...
2022-01-15 23:10:01
3053
4
原创 移动社交网络仿真环境
移动社交网络仿真环境一,sumoreal-world vehicle trace files and commercial simulators真实的车辆跟踪文件和商业模拟器二,SNAPStanford Large Network Dataset Collection (SNAP), which is a platform for open network data sets collected and maintained by Stanford University.一个由斯坦福大学收集和维
2020-06-29 15:55:44
532
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人