61、TF-Agents训练架构与组件构建详解

最新推荐文章于 2025-11-21 23:06:01 发布

github5actions

最新推荐文章于 2025-11-21 23:06:01 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战精要文章标签： TF-Agents 深度Q网络 DQN智能体

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/github5actions/article/details/154856673

机器学习实战精要专栏收录该内容

74 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

TF-Agents训练架构与组件构建详解

1. TF-Agents训练架构概述

TF - Agents训练程序通常分为两个并行运行的部分，如图所示：
- 左边部分：一个驱动程序（driver）使用收集策略（collect policy）探索环境，选择动作并收集轨迹（trajectories，即经验），然后将这些轨迹发送给观察者（observer），观察者将其保存到回放缓冲区（replay buffer）中。
- 右边部分：一个智能体（agent）从回放缓冲区中提取一批轨迹，并训练一些网络，这些网络被收集策略使用。

简单来说，左边部分负责探索环境并收集轨迹，右边部分负责学习并更新收集策略。

下面是对一些常见问题的解答：
- 为何使用多个环境 ：使用多个环境副本并行探索，可以充分利用CPU核心的计算能力，让训练GPU保持忙碌状态，同时为训练算法提供相关性较低的轨迹。
- 什么是轨迹 ：轨迹是从一个时间步到下一个时间步的转换的简洁表示，或者是从时间步n到时间步n + t的连续转换序列。驱动程序收集的轨迹会被传递给观察者，保存到回放缓冲区，后续由智能体采样用于训练。
- 为何需要观察者 ：虽然驱动程序可以直接保存轨迹，但这会使架构缺乏灵活性。例如，如果不想使用回放缓冲区，或者想将轨迹用于其他用途（如计算指标），观察者就派上用场了。观察者实际上是一个以轨迹为参数的函数，可以用于将轨迹保存到回放缓冲区、TFRecord文件，计算指标等。而且可以向驱动程序传递多个观察者，驱动程序会将轨迹广播给所有观察者。

需要注

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。