- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 DeepSeek中的强化学习算法GRPO可以用在机器人学习中吗?可以!手搓GRPO代码从入门到“放弃”
最近Deepseek火了,因为它以低成本的训练方式训出了和OpenAI sota的GPT模型相当的效果。Deepseek大佬们在开源周陆续开源了他们的核心技术,其中最重要的一项技术就是强化学习算法GRPO。GRPO抛弃了传统PPO算法中的价值网络,节省了大量的运算,顿时轰动了大语言模型行业内外。PPO算法一开始在机器人领域大放光彩,特别是运动控制领域,它基本上是机器人强化学习的首选。这个时候不禁有很多人会想,既然GRPO在大语言模型的学习过程中这么牛,那能不能用到机器人学习中呢?
2025-03-14 17:11:03
1016
1
原创 机器学习笔记-目标检测评价标准mAP的理解
mAP是用来评估目标检测任务性能的一个重要指标。m代表的是mean的缩写,mAP是对于所有类别的AP求平均得到的。所以,只要明白的AP值怎么计算,mAP就很好理解了。AP的计算又由recall(查全率)和precision(查准率)计算而来,recall(查全率)和precision(查准率)计算又必须要知道什么是混淆矩阵。所以本笔记首先讲解什么是混淆矩阵,然后再讲解recall(查全率)和precision(查准率)的计算方法。有了这些基础之后,AP的计算方法自然就容易理解了。
2025-01-18 17:23:13
1763
原创 ubuntu安装最新mujoco的方法- 2022.5.10
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、安装 mujoco python二、安装 mujoco simulator1.下载mujoco2.运行mujoco simulator 进行测试总结前言自从DeepMind收购mujoco之后,DeepMind立马就把mujoco就开源了,这波白给是真的香!由于网上充斥着很多之前mujoco的安装方法,过程复杂。所以,本文针对这一问题提供了最新的mujoco安装方式,操作极其简单!!一、安装 mujoco pyt.
2022-05-10 21:05:43
2293
4
CoppeliaSim_Edu_V4_0_0_Ubuntu16_04.tar.xz
2020-03-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人