20、分布式深度Q网络:全面解析

分布式深度Q网络:全面解析

1. 期望与方差

1.1 期望的计算

对于概率分布,我们常常会关心“最可能”的结果,也就是分布的均值或平均值。以5天的温度预报 [18, 21, 17, 17, 21]°C 为例,其平均值的计算方法是将所有结果相加再除以结果的数量,即 [18 + 21 + 17 + 17 + 21]/5 = 94/5 = 18.8°C。

若有五个人对明天芝加哥的温度进行预测,给出了相同的数字 [18, 21, 17, 17, 21]°C,我们同样可以用上述方法计算平均温度。但如果其中一人是气象学家,我们对其预测的信心更高,就可以使用加权平均的方法。假设气象学家的预测有60%的可能性是正确的,其他四人的预测各有10%的可能性正确(0.6 + 4 * 0.10 = 1.0),那么加权平均的计算结果为 [(0.6 * 18) + 0.1 * (21 + 17 + 17 + 21)] = 18.4°C。

当所有权重相等且总和为1时,就是普通的平均值计算;而当权重不同时,得到的加权平均就是分布的期望值。对于离散分布,给定概率分布 P(x),其中 x 是样本空间,期望值的计算公式为对每个值 x 乘以其对应的概率 P(x) 并求和。

以下是在Python中计算期望值的示例:

import numpy as np
x = np.array([1,2,3,4,5,6])
p = np.array([0.1,0.1,0.1,0.1,0.2,0.4])
def expected_value(x,p):
    return x @ p
print(expected_
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值