自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 四、Actor-Critic Methods

一点对上述总结的补充。

2024-09-09 16:52:40 492

原创 三、Policy-Based Reinforcement learning

由于在看DRL论文中,很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明,

2024-09-09 16:34:36 640

原创 二、Value-Based Reinforcement Learning

游戏的目标是打赢游戏 = 强化学习中最大化奖励DQN算法是Value based method,因此其依赖acion_value functionValue_Based method表示,在状态S下执行动作A的平均回报有多好(因为是考虑的期望)。(即Q*是一个先知,他能告诉每一个执行动作的平均回报)。DQN算法会选择Q值最高的动作value-based method 即学习一个函数来近似Q*来近似估计。

2024-09-06 14:48:04 472

原创 DRL_基本概念

由于在看DRL论文中,很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明,非常推荐B站 “王树森 老师的DRL 强化学习”本文的图表及内容,都是基于王老师课程的后自行理解整理出的内容。

2024-09-05 22:24:48 932

原创 一、深度强化学习(DRL)中的Policy-based 和 Value-based

基于价值(Value-based)和基于策略(Policy-based)的方法都有一个共同的目标,即最大化累积回报,但它们在实现这一目标的方式上有所不同。value-based 通过估计每个状态-动作对的 Q 值来选择动作。即最大化Q值选择动作。但是为了平衡探索(exploration)和利用(exploitation)。常常会通过贪心策略进行平衡。即以ϵ 的概率:选择一个随机动作。1−ϵ 的概率:选择当前 Q 值最大的动作。

2024-07-19 10:02:47 689

原创 ROS通信,如何查看话题的数据类型和传输自定义数据类型

test是我src工作空间下的功能包如下图,我想传输一个person类然后,我们需要在package.xml文件中添加依赖在cmakelist中添加如下依赖最后catkin_make 编译需要我们在代码中引用一下最终我们就可以实现自定义数据类型的通信。

2024-04-22 14:38:25 1362 1

原创 behavior tree 介绍

从根节点开始按具体的顺序遍历执行,直到返回最终状态•叶节点(Execution Nodes)与底层代码结合起来,会执行具体的任务(action)或者检查(condition),返回 (success, failure, or running)•控制结点接受其子结点返回的状态,并决定下一个将展开哪个结点当只有一个目标点A但上述考虑是不完全的,我们在执行GoToA之前我们要先检测。例如当机器人已经到目的A时,就不需要再执行动作GoToA。直接FoundObj。

2024-03-10 19:48:19 1582 1

原创 lstm长短期神经网络

RNN让之前的信息保留下来,方便理解当前的token。后面LM主语是阿珍,遗忘之前的主语性别,更新新的主语性别。为细胞状态向量计算出一个0-1的值,用于衡量每一个信息需要记住多少,丢弃多少。丢弃旧的主语信息,添加新的主语信息。输入:上一时刻的细胞状态、隐藏状态ht-1、当前时刻的词嵌入向量xt。一个 LSTM 有三个这样的门,用于保护和控制细胞状态。遗忘门、输入门和新候选值向量、更新细胞状态 、输出门。输出:当前时刻的两个隐藏状态ht和一个细胞状态。看到了阿珍的主语,所以需要输出的主语性别为女。

2023-12-26 15:01:08 1030 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除