cxzzjw-优快云博客

原创 PPO lagrangian代码实现及解析

最近对安全强化学习（safe RL）比较感兴趣，不过发现针对于安全强化学习的代码开源较少，且各有各的实现风格，于是自己针对PPO编写了PPO lagrangian，特地分享出来与大家探讨学习。代码已发布在。# 定义 Critic 网络（用于奖励值估计）return v_s# 定义 SafeCritic 网络（用于安全代价估计）希望能帮到大家！GitHub上的代码大家觉得好，也可以多多star!

2025-02-22 18:19:54 995 5

原创自动驾驶强化学习日记--入门篇

本人之前一直学的是监督学习，最近开始研究自动驾驶的决策规划，涉及强化学习，发现强化学习的概念相比之下很多，并且很乱，经常被一些Q函数，Value函数，on-policy，off-policy等概念弄得头昏脑胀。因此，从自动驾驶决策规划的角度出发，把强化学习涉及的概念和算法系统梳理一下，打算以系列的方式，边学边更新。（个人的理解都用加粗标出）

2024-12-18 14:38:15 1157

原创 nuScenes自动驾驶数据集--数据格式详解

nuScenes数据集中各种数据定义，如scene，sample，sweep，sample_data，attribute等，对于初学者来说十分头疼，本人在最近也是学习了好久，想与大家分享一些自己的心得。

2024-12-14 23:19:27 1221

原创 autodl部署复现UniAD--使用nuscenes v1.0-mini

由于本人目前在研究端到端自动驾驶，不过算力有限，因此打算在autodl上部署复现一下经典的UniAD，但是踩了许多坑。特此写下来记录一下（与官方文档不同的部分用红色标出），也方便大家复现，少走弯路。

2024-12-08 17:04:56 1723 8

原创解决LLaMA-Factory共享链接的创建问题--[To create a public link, set `share=True` in `launch()`.]

其所开发的由gradio驱动的webui更是提供了可视化微调，降低了微调大模型的门槛。这种方法限制了webui模块在服务器或者autodl等租赁网站上的使用，因此，需要修改内部代码，以得到共享链接，便于在个人电脑上操作。中的gradio_share定义为True就可以实现共享链接，但事实上程序并没用调用此函数，而是调用了更深层的。执行如下命令可以下载LLaMA-Factory，所有代码都存放于LLaMA-Factory文件夹中。，即可生成有效时间72h的共享链接，此时就可以在其他电脑上进行访问。

2024-07-28 13:27:51 4167 7

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 PPO lagrangian代码实现及解析

原创 自动驾驶强化学习日记--入门篇

原创 nuScenes自动驾驶数据集--数据格式详解

原创 autodl部署复现UniAD--使用nuscenes v1.0-mini

原创 解决LLaMA-Factory共享链接的创建问题--[To create a public link, set `share=True` in `launch()`.]

空空如也

空空如也

原创自动驾驶强化学习日记--入门篇

原创解决LLaMA-Factory共享链接的创建问题--[To create a public link, set `share=True` in `launch()`.]