具身智能杂学家-优快云博客

原创 DeepSeek中的强化学习算法GRPO可以用在机器人学习中吗？可以！手搓GRPO代码从入门到“放弃”

最近Deepseek火了，因为它以低成本的训练方式训出了和OpenAI sota的GPT模型相当的效果。Deepseek大佬们在开源周陆续开源了他们的核心技术，其中最重要的一项技术就是强化学习算法GRPO。GRPO抛弃了传统PPO算法中的价值网络，节省了大量的运算，顿时轰动了大语言模型行业内外。PPO算法一开始在机器人领域大放光彩，特别是运动控制领域，它基本上是机器人强化学习的首选。这个时候不禁有很多人会想，既然GRPO在大语言模型的学习过程中这么牛，那能不能用到机器人学习中呢？

2025-03-14 17:11:03 1016 1

原创机器学习笔记-目标检测评价标准mAP的理解

mAP是用来评估目标检测任务性能的一个重要指标。m代表的是mean的缩写，mAP是对于所有类别的AP求平均得到的。所以，只要明白的AP值怎么计算，mAP就很好理解了。AP的计算又由recall（查全率）和precision（查准率）计算而来，recall（查全率）和precision（查准率）计算又必须要知道什么是混淆矩阵。所以本笔记首先讲解什么是混淆矩阵，然后再讲解recall（查全率）和precision（查准率）的计算方法。有了这些基础之后，AP的计算方法自然就容易理解了。

2025-01-18 17:23:13 1763

原创【动手学大模型开发-第二章学习笔记】

动手学大模型开发学习笔记

2024-04-20 23:59:42 1193

原创 ubuntu安装最新mujoco的方法- 2022.5.10

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、安装 mujoco python二、安装 mujoco simulator1.下载mujoco2.运行mujoco simulator 进行测试总结前言自从DeepMind收购mujoco之后，DeepMind立马就把mujoco就开源了，这波白给是真的香！由于网上充斥着很多之前mujoco的安装方法，过程复杂。所以，本文针对这一问题提供了最新的mujoco安装方式，操作极其简单！！一、安装 mujoco pyt.

2022-05-10 21:05:43 2293 4

CoppeliaSim_Edu_V4_0_0_Ubuntu16_04.tar.xz

官网下载很慢，已经下载好了，请自取将下载好的安装包解压到/home/VREP目录下；添加source源设置VREP路径 sudo gedit ~/.bashrc 在.bashrc中最后一行添加:export VREP_ROOT=$HOME/VREP source ~/.bashrc

2020-03-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人