发展历史

分类


现实中的很多例子是:不基于模型的且回报函数也是不知道的。但是网上给出的例子基本上都是基于模型的,
当然模型中的回报函数也是给你定义出来了的,或许你要做的就是调节超参数或者网络结构,使得他更加快速的
收敛而已。
本文讨论了强化学习在现实世界的应用特点,特别是在面对未知回报函数和非模型化环境时的挑战。文章强调了调整超参数及网络结构对于加速算法收敛的重要性。



现实中的很多例子是:不基于模型的且回报函数也是不知道的。但是网上给出的例子基本上都是基于模型的,
当然模型中的回报函数也是给你定义出来了的,或许你要做的就是调节超参数或者网络结构,使得他更加快速的
收敛而已。
539

被折叠的 条评论
为什么被折叠?