分布式深度Q网络:全面解析
1. 期望与方差
1.1 期望的计算
对于概率分布,我们常常会关心“最可能”的结果,也就是分布的均值或平均值。以5天的温度预报 [18, 21, 17, 17, 21]°C 为例,其平均值的计算方法是将所有结果相加再除以结果的数量,即 [18 + 21 + 17 + 17 + 21]/5 = 94/5 = 18.8°C。
若有五个人对明天芝加哥的温度进行预测,给出了相同的数字 [18, 21, 17, 17, 21]°C,我们同样可以用上述方法计算平均温度。但如果其中一人是气象学家,我们对其预测的信心更高,就可以使用加权平均的方法。假设气象学家的预测有60%的可能性是正确的,其他四人的预测各有10%的可能性正确(0.6 + 4 * 0.10 = 1.0),那么加权平均的计算结果为 [(0.6 * 18) + 0.1 * (21 + 17 + 17 + 21)] = 18.4°C。
当所有权重相等且总和为1时,就是普通的平均值计算;而当权重不同时,得到的加权平均就是分布的期望值。对于离散分布,给定概率分布 P(x),其中 x 是样本空间,期望值的计算公式为对每个值 x 乘以其对应的概率 P(x) 并求和。
以下是在Python中计算期望值的示例:
import numpy as np
x = np.array([1,2,3,4,5,6])
p = np.array([0.1,0.1,0.1,0.1,0.2,0.4])
def expected_value(x,p):
return x @ p
print(expected_
超级会员免费看
订阅专栏 解锁全文
1755

被折叠的 条评论
为什么被折叠?



