PyTorch 1.0 中文文档:torch.distributions

探讨了在优化和随机梯度估计中使用的概率分布和采样函数,介绍了两种主要的代理函数创建方法:REINFORCE和pathwisederivative估计器,并提供了在强化学习和变分自动编码器中应用的示例代码.

译者:hijkzzz

distributions 包含可参数化的概率分布和采样函数. 这允许构造用于优化的随机计算图和随机梯度估计器. 这个包一般遵循 TensorFlow Distributions 包的设计.

通常, 不可能直接通过随机样本反向传播. 但是, 有两种主要方法可创建可以反向传播的代理函数. 即得分函数估计器/似然比估计器/REINFORCE和pathwise derivative估计器. REINFORCE通常被视为强化学习中策略梯度方法的基础, 并且pathwise derivative估计器常见于变分自动编码器中的重新参数化技巧. 得分函数仅需要样本的值 , pathwise derivative 需要导数 . 接下来的部分将在一个强化学习示例中讨论这两个问题. 有关详细信息, 请参阅 Gradient Estimation Using Stochastic Computation Graphs .

得分函数

当概率密度函数相对于其参数可微分时, 我们只需要sample()log_prob()来实现REINFORCE:

是参数, 是学习速率, 是奖励 并且 是在状态 以及给定策略 执行动作 的概率.

在实践中, 我们将从网络输出中采样一个动作, 将这个动作应用于一个环境中, 然后使用log_prob构造一个等效的损失函数. 请注意, 我们使用负数是因为优化器使用梯度下降, 而上面的规则假设梯度上升. 有了确定的策略, REINFORCE的实现代码如下:

probs = policy_network(state)
# Note that this is equivalent to what used to be called multinomial
m = Categorical(probs)
action = m.sample()
next_state, reward = env.step(action)
loss = -m.log_prob(action) * reward
loss.backward()

Pathwise derivative

实现这些随机/策略梯度的另一种方法是使用来自rsample()方法的重新参数化技巧, 其中参数化随机变量可以通过无参数随机变量的参数确定性函数构造. 因此, 重新参数化的样本变得可微分. 实现Pathwise derivative的代码如下:

阅读全文/改进本文

### PyTorch 中 `torch.normal` 和 `torch.distributions` 的功能及用法 #### 功能概述 `torch.normal` 是用于生成服从正态分布的随机数的一个函数。而 `torch.distributions` 则是一个模块,提供了多种概率分布类及其相关操作的方法。 对于 `torch.distributions` 模块中的具体实现,比如 Gamma 分布可以通过如下方式创建: ```python from torch.distributions import Gamma concentration = torch.tensor([0.6], dtype=torch.float) rate = torch.tensor([3.0], dtype=torch.float) gamma_dist = Gamma(concentration, rate)[^2] ``` 上述代码展示了如何利用给定的浓度参数(shape parameter)和速率参数(rate parameter)来实例化一个Gamma对象。 而对于简单的正态分布采样需求,则可以使用更便捷的方式通过 `torch.normal` 函数完成: ```python import torch mean = 0. stddev = 1. samples = torch.normal(mean=mean, std=stddev, size=(1,)) print(samples) ``` 这段代码实现了从均值为 mean、标准差为 stddev 的正态分布中抽取样本并打印出来[^3]。 当涉及到复杂的统计计算时,如求解某个特定数值的概率密度或对数似然度(log probability),则推荐采用 `torch.distributions.Normal` 类来进行处理: ```python from torch.distributions import Normal mu = torch.tensor(0., dtype=torch.float) sigma = torch.tensor(1., dtype=torch.float) normal_distribution = Normal(mu, sigma) value_to_evaluate = torch.tensor(2.5, dtype=torch.float) probability_density_at_value = normal_distribution.log_prob(value_to_evaluate).exp() log_probability_of_sampled_data = normal_distribution.log_prob(normal_distribution.sample()) ``` 这里不仅演示了怎样获取指定位置处的概率密度估计值,还说明了如何评估所抽样的数据点对应的对数概率。 值得注意的是,在某些情况下可能会遇到额外项的存在影响最终的结果解释,例如公式 \( \frac{1}{2} + \frac{\pi}{2} + log(\sigma)\) 可能会出现在一些具体的上下文中作为调整因子或其他目的的一部分[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值