- 博客(53)
- 收藏
- 关注
原创 AMP论文分析
作者针对不通的目标设计了很多奖励塑造,比如击打目标物体的任务,如果离目标很远则跑过去,如果离目标很近则切换到行走,如果与目标足够近则击打目标。本文混合了目标实现和模仿学习,其中模仿学习使用对抗性方式学习对给定风格的遵守,AMP中的A(Adversarial)就是对抗性。同样,我们希望我们的 Actor 能够模仿专家,即 Actor 产生的轨迹(的分布)与专家产生的轨迹(的分布)相似。这种多个动作的组合需要用权重来控制,比如举起手行走,如果举手的权重过小,则几乎无法行走;如行走的权重过小,则无法举手。
2024-07-23 20:50:48
1251
原创 DreamWaQ论文分析
环境建模为POMDP,定义为MSOAd0prγ其中完整状态、部分观测、动作都是连续的s∈So∈Oa∈A环境从初始状态分布d0s0开始,以下述状态转移概率进行pst1∣stat每次transition获得下述奖励函数定义的奖励rS×A→R折扣因子定义为γ∈01将t时刻的过去H次测量值的时间观测值定义为otHotot−1ot−HT。
2024-01-07 13:20:54
1752
原创 树莓派4b安装Ubuntu20.04桌面版并安装ROS1-Noetic和ROS2-Foxy
树莓派4b安装Ubuntu20.04桌面版并安装ROS1-Noetic和ROS2-Foxy
2022-02-27 11:03:18
8064
原创 STM32CubeMX重定向printf输出至串口
STM32CubeMX重定向printf输出至串口第一步,CubeMX配置串口(GPIO配置略)第二步,包含头文件#include <stdio.h>第三步,勾选Use Microlib第四步,重定向printf,此处需要将huart2改为上面配置的串口int fputc(int c, FILE *stream){ HAL_UART_Transmit(&huart2, (unsigned char *)&c, 1, 1000); retu
2022-02-27 11:00:46
8484
2
原创 ROS2——参数的使用
ROS2——参数的使用上回说到, Organization给每个人免费送2个汉堡, 有一天Organization正在营业中, 汉堡突然供不应求了, 领导决定临时改变规则, 之后的每个人只能领取一个汉堡. 但是此时节点已经在运行中, 该如何改变这个值呢? 这就需要用到参数parameters参数简介参数是节点的配置参数值。你可以认为参数是节点配置的一部分。参数为整数,浮点数,布尔值,字符串和列表。在ROS2中,每个节点都有自己的参数。所有参数都是可动态重新配置的,并且是基于ROS2服务构建的。在这个
2021-10-04 17:33:22
2721
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人