20、分布式深度Q网络：全面解析

最新推荐文章于 2025-09-05 08:00:00 发布

落叶知秋263

最新推荐文章于 2025-09-05 08:00:00 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习实战指南文章标签：分布式Q网络深度强化学习期望值

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/151169585

深度强化学习实战指南专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

分布式深度Q网络：全面解析

1. 期望与方差

1.1 期望的计算

对于概率分布，我们常常会关心“最可能”的结果，也就是分布的均值或平均值。以5天的温度预报 [18, 21, 17, 17, 21]°C 为例，其平均值的计算方法是将所有结果相加再除以结果的数量，即 [18 + 21 + 17 + 17 + 21]/5 = 94/5 = 18.8°C。

若有五个人对明天芝加哥的温度进行预测，给出了相同的数字 [18, 21, 17, 17, 21]°C，我们同样可以用上述方法计算平均温度。但如果其中一人是气象学家，我们对其预测的信心更高，就可以使用加权平均的方法。假设气象学家的预测有60%的可能性是正确的，其他四人的预测各有10%的可能性正确（0.6 + 4 * 0.10 = 1.0），那么加权平均的计算结果为 [(0.6 * 18) + 0.1 * (21 + 17 + 17 + 21)] = 18.4°C。

当所有权重相等且总和为1时，就是普通的平均值计算；而当权重不同时，得到的加权平均就是分布的期望值。对于离散分布，给定概率分布 P(x)，其中 x 是样本空间，期望值的计算公式为对每个值 x 乘以其对应的概率 P(x) 并求和。

以下是在Python中计算期望值的示例：

import numpy as np
x = np.array([1,2,3,4,5,6])
p = np.array([0.1,0.1,0.1,0.1,0.2,0.4])
def expected_value(x,p):
    return x @ p
print(expected_

会员秒杀 ¥9.9 重磅福利

超级会员免费看