
论文总结
文章平均质量分 95
总结阅读过的论文
qiqiqi(^_×)
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【ICML 2024】Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning
用JAX编写的Crafter升级版,加速了Crafter的运行速度。实现1小时交互1Bsteps。Benchmarks play a crucial role in the development and anal原创 2025-03-09 17:27:34 · 787 阅读 · 0 评论 -
【IJCAI 2024】Large Language Model as a Policy Teacher for Traning Reinforcement Learning Agents
大语言模型(LLM) Agent解决具身目标任务成本高,效果也不是很好。强化学习(RL)从头开始,样本效率低,探索成本高。这篇文章主要基于蒸馏学习的思想提出,让RL学习LLM的策略,但不单单从LLM中学习,还通过和环境交互学习策略,以减轻LLM提出错误决策的影响。LLMs在提供高级指令方面展现出潜力,但在特定任务上缺乏专业化能力。RL智能体擅长目标任务,但面临低采样效率和高探索成本的问题。实际部署LLM-based代理成本高昂,且计算资源需求大。原创 2025-04-09 18:01:19 · 655 阅读 · 0 评论