
pytorch
文章平均质量分 87
DeepBrainWH
西工大计算机在读硕士一枚, 研究方向机器人智能决策,对图像处理,GAN, 情感分析较为感兴趣~
展开
-
手撕强化学习: Policy Gradient算法实现
Policy Gradient算法pytorch实现策略梯度是典型的on-policy的学习方式, 通过智能体与环境的交互实现自主学习. 其流程大致如下图所示.#mermaid-svg-0QTCGCECBnYroheS .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-0QTCGCECBnYroheS .lab原创 2021-04-20 16:43:40 · 632 阅读 · 0 评论 -
PyTorch网络权值初始化的几种方式
PyTorch网络权值初始化的几种方式pytorch在torch.nn.init中提供了常用的初始化方法函数,这里简单介绍,方便查询使用。介绍分两部分:Xavier,kaiming系列;其他方法分布Xavier初始化方法,论文在Understanding the difficulty of training deep feedforward neural networks.公式推导是从“方差一致性”出发,初始化的分布有均匀分布和正态分布两种。1. Xavier均匀分布torch.nn.i原创 2021-04-18 19:23:56 · 1569 阅读 · 0 评论