强化学习与TensorFlow模型的训练部署
1. 强化学习准备工作
1.1 初始策略与数据收集
在强化学习中,我们首先需要定义初始收集策略。以TF - Agents库为例,使用 RandomTFPolicy 来创建初始收集策略:
from tf_agents.policies.random_tf_policy import RandomTFPolicy
initial_collect_policy = RandomTFPolicy(tf_env.time_step_spec(),
tf_env.action_spec())
接着,使用 DynamicStepDriver 来收集数据:
from tf_agents.drivers.dynamic_step_driver import DynamicStepDriver
init_driver = DynamicStepDriver(
tf_env,
initial_collect_policy,
observers=[replay_buffer.add_batch, ShowProgress(20000)],
num_steps=20000) # <=> 80,000 ALE frames
final_time_step, final_policy_state =
强化学习与TF模型部署
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



