- 博客(63)
- 收藏
- 关注
原创 机器人运动学林沛群——变换矩阵
求齐次矩阵的逆,由于是正交矩阵,因此可以通过转置来求逆,但是移动部分不能进行简单的转置变换,因为是。先移动在转动,C——即右侧的矩阵先于向量相乘,左侧的旋转矩阵之后相乘。点与坐标系的相对位置关系,点向前移动,与坐标系向后移动相同。在向量中,齐次变换矩阵也是由旋转和移动组成,但要注意的是。,要是先移动在转动,如右下角所示,并不是我们想要的结果。转化为在A坐标系下的值,因此需要乘旋转矩阵。,是因为如果要平移,需要将。,因此需要乘旋转矩阵。
2024-02-07 23:08:38
1581
原创 机器人运动学林沛群——旋转矩阵
三个主轴,可以看作是三个向量,为b在a的表达,以a为基准旋转矩阵BARAXBAYBAZBXB⋅XAXB⋅YAXB⋅ZAYB⋅XAYB⋅YAYB⋅ZAZB⋅XAZB⋅YAZB⋅ZA用三个列向量来表示B坐标系每一个转轴的方向,每一个列向量的组成:即。
2024-02-07 21:56:37
1541
原创 Coppeliasim同步模式介绍
如果开启同步模式,每一时步结束时,需要加下面的代码,才会将前面获得的关节等数据。后,会发现仿真变慢了,接下来将对同步模式进行介绍。的存在,是为了防止在 执行完。在倒立摆demo中,打开。,就进入了下一循环。
2024-01-30 23:33:21
668
原创 Coppeliasim倒立摆demo
的串口号为19998,当在Coppeliasim运行后,后台会发布该串口,可以利用Python进行远程控制。首先需要将使用Python远程控制的文件导入到文件夹,核心是深蓝色的三个文件。双击Sphere这一行的灰色文件,可以看到远程。代码运行后,如图所示,可以驱动倒立摆末端转动。
2024-01-30 23:01:19
750
1
转载 pandas.Categorical()函数
values:需要分类的值,如果给出了categories,则会将不在categories的值替换为NaN。categories:根据categories进行分类,如果没有给出,则将values中。dtype:若使用此函数生成一个实例,返回一个CategoricalDtype类型。ordered:默认为False,如果为True,则启用排序。通过启用排序,则可以使用min来获取最小索引的数据。
2024-01-29 21:13:06
273
原创 强化学习14——DDPG算法
在线策略算法的样本效率比较低,而在DNQ算法中,做到了离线策略学习,但是只能处理的环境。如果动作空间无限,可将动作空间,但比较粗糙,无法惊喜控制。DDPG(deep deterministic policy gradient)可以用来处理的算法。
2024-01-26 15:33:10
2022
2
原创 强化学习13——Actor-Critic算法
Actor-Critic算法结合了策略梯度和值函数的优点,我们将其分为两部分,Actor(策略网络)和Critic(价值网络)
2024-01-23 21:53:01
1701
原创 强化学习12——策略梯度算法学习
将策略描述为带有参数θ\thetaθJθEs0Vπθs0JθEs0Vπθs0)]我们将目标函数对参数θ\thetaθ求导,得到导数,就可以用梯度上升方法来最大化目标函数,从而得到最优策略。我们使用νπ\nu^{\pi}νπ表示策略π\piπ∇θJθ∝∑s∈Sνπθs∑a∈AQπθsa∇θπθa∣s∑s∈Sνπθs∑a∈Aπθa∣sQ。
2024-01-23 16:32:20
1187
原创 强化学习11——DQN算法
DQN算法的全称为,Deep Q-Network,即在Q-learning算法的基础上引用深度神经网络来近似动作函数Qsa。对于传统的Q-learning,当状态或动作数量特别大的时候,如处理一张图片,假设为210×160×3,共有256210×60×3种状态,难以存储,但可以使用参数化的函数Qθ来拟合这些数据,即DQN算法。同时DQN还引用了经验回放和目标网络,接下来将以此介绍。
2024-01-15 21:31:54
2386
原创 ROS2——INFO、Rate和spin_some
编译并运行后,可以得到如下结果,可以看到消息的类型,节点的名字以及时间、发布的内容。用来创建一个延迟函数,时间设置为500ms,并调用回调函数。接下来我们启动一个节点,来订阅节点。使用该命令可以查看该话题的相关信息。使用面向对象编程,使用类继承。的内容,这样代码更简洁明了。
2024-01-12 23:37:15
940
原创 ROS2——launcher
在下面的例子中,我们在一个Python程序中,使用。文件是通过Python构建的,它们的功能是。文件内可以引用另一个。
2024-01-12 23:33:04
517
原创 ROS2——Parameters
节点可以使用参数来配置各项操作,这些参数可以说布尔值、整数、字符串等类型。节点在启动时会读取参数。我们将参数单独列出来,而不是写在,这样做可以,因为。通过观察上面的代码,我们可以发现。
2024-01-11 23:11:05
954
原创 ROS2——开发第一个节点
文件夹下,使用下面的命令创建一个包,并设置相关的。接下来,来看看CMake文件。因此程序并没有执行任何内容。ROS2 的包必须在。
2024-01-10 21:54:34
523
原创 强化学习9——免模型预测算法介绍(蒙特卡洛方法和时步差分方法)
对于大部分情况来说,环境是未知的,也就是说状态转移概率未知,对于这种情况的算法称为算法。免模型算法与环境不断交互学习,但是需要大量的运算。
2024-01-09 16:47:02
1098
原创 常见的Latex公式所用到的内容汇总
通过cases环境实现公式的组合,&分隔公式和条件,还可以通过\limits来让x→0位于lim的正下方而非默认在lim符号的右下方显示。加上其字母读音实现,将读音首字母大写即可输入其大写形式,详见下表。在LaTeX中通过反斜杠。积分、极限、求和、乘积。粗体——可以表示向量。
2024-01-09 15:07:37
1256
原创 强化学习4——动态规划初探
动态规划具体指的是在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子问题的过程中保存已经求解的结果,以便后续使用。实际上动态规划更像是一种通用的思路,而不是具体某个算法。在强化学习中,被用于和,如策略迭代、Q-learning算法。
2024-01-05 21:02:03
484
原创 强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略(下)
智能体的策略policy通常用π表示,即πa∣sPAta∣Sts,在输入状态s的情况下采取动作a的概率。
2024-01-05 19:51:50
619
原创 强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略(上)
介绍了强化学习中的马尔可夫决策过程描述、马尔可夫性质、状态转移矩阵和回报的知识
2024-01-05 15:31:04
1886
原创 强化学习1——多臂老虎机(上)
老虎机_百度百科 (baidu.com)多臂老虎机即有多个摇杆的老虎机,每个摇杆获得奖励的概率分布R不同,每次拉动摇杆,可以根据该摇杆的奖励概率分布,有概率获得奖励r。我们需要在每根拉杆的奖励概率分布未知的情况下,在操作T次后,获得最高的累计奖励,因此需要在寻找获奖概率最高的拉杆和从拉过的杆中选择获奖最多(间接体现在已知的拉杆中获奖概率最高)的拉杆进行权衡。
2024-01-04 16:06:26
1262
1
原创 科大讯飞金融机器学习夏令营
量化金融可以理解为是金融中的数据科学,通过统计和数据分析,为投资选择方向。量化投资是指利用数学模型和计算机技术进行投资决策的一种投资方式。量化投资的核心是建立量化模型,通过对大量历史数据的分析,找出投资标的的规律,进而预测未来的走势,从而制定投资策略。本赛事通过大数据与机器学习的方法和工具,理解市场行为的原理,通过数据分析和模型创建量化策略,采用历史数据,验证量化策略的有效性,并且通过实时数据进行评测。
2023-08-06 22:05:34
197
原创 安装Microsoft store
在搜索栏搜xbox,点击并使用微软账号登陆,在设置-常规中,会显示依赖关系缺失,里面有Microsoft store,点击安装即可。
2023-05-26 13:39:32
482
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人