- 博客(8)
- 收藏
- 关注
原创 Proximal Policy Optimization (PPO) 原理
在TRPO中,我们通过解如下优化问题对策略参数进行更新:maximizeθEt[πθ(at∣st)πθold(at∣st)At],s.t.E[DˉKL[πθold(⋅,st),πθ(⋅,st)]]≤δ.(1)\text{maximize}_{\theta} \mathbb{E}_t[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}A_t],\\s.t. \mathbb{E}[\bar D_{KL}[\pi_{\theta_{old}}(
2023-05-16 11:23:53
171
1
原创 Trust Region Policy Optimization (TRPO) 公式推导
记期望累计奖励ηπηπEs0∼ρs0at∼πa∣sst1∼Pst1∣statt0∑∞γtrst)]1其中ρs0为初始状态s0的分布。
2023-05-15 23:46:49
281
1
原创 Probabilistic Movement Primitives (ProMP) 总结
论文Probabilistic Movement Primitives总结
2022-10-27 23:56:21
980
原创 Human-in-the-Loop Optimization of Exoskeleton Assistance Via Online Simulation of Metabolic Cost
Human-in-the-Loop Optimization of Exoskeleton Assistance Via Online Simulation of Metabolic Cost总结
2022-09-21 12:27:53
478
1
原创 利用Visual Studio创建C语言dll
利用VS2019创建dll方法UDP通信的定义Winsock用于通信的结构体服务端socket建立服务端程序源码用户端socket建立用户端程序源码信息的接收与发送UDP通信的特点UDP通信的定义Internet 协议集支持一个无连接的传输协议,该协议称为用户数据报协议(UDP,User Datagram Protocol)。UDP 为应用程序提供了一种无需建立连接就可以发送封装的 IP 数据包的方法。Winsock用于通信的结构体首先认识几个Windows提供的结构体:WORD:为微软SDK中的
2020-06-19 15:20:33
2505
原创 利用Winsock实现UDP通信
UDP通信的C语言实现UDP通信的定义Winsock用于通信的结构体服务端socket建立服务端程序源码用户端socket建立用户端程序源码信息的接收与发送UDP通信的特点UDP通信的定义Internet 协议集支持一个无连接的传输协议,该协议称为用户数据报协议(UDP,User Datagram Protocol)。UDP 为应用程序提供了一种无需建立连接就可以发送封装的 IP 数据包的方法。Winsock用于通信的结构体首先认识几个Windows提供的结构体:WORD:为微软SDK中的类型,为
2020-06-16 23:56:20
3526
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人