14、基于函数逼近的强化学习扩展

Light

于 2025-11-03 15:13:53 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch强化学习实战文章标签：强化学习函数逼近线性函数逼近

本文链接：https://blog.youkuaiyun.com/Light/article/details/154633257

PyTorch强化学习实战专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于函数逼近的强化学习扩展

在强化学习中，当状态空间非常大时，传统的表格方法（如 TD 方法中的 Q 表）可能会变得不切实际。函数逼近（Function Approximation，FA）是一种解决这个问题的有效方法，它可以用更紧凑的模型来近似状态值。本文将详细介绍如何使用线性函数逼近进行 Q 学习和 SARSA 学习，并引入经验回放来提高性能。

1. 线性函数逼近的 Q 函数估计器

首先，我们将开发一个基于线性函数的 Q 函数估计器。以下是具体步骤：

导入必要的包

import torch
from torch.autograd import Variable
import math

定义 Estimator 类的 __init__ 方法

class Estimator():
    def __init__(self, n_feat, n_state, n_action, lr=0.05):
        self.w, self.b = self.get_gaussian_wb(n_feat, n_state)
        self.n_feat = n_feat
        self.models = []
        self.optimizers = []
        se