- 博客(5)
- 收藏
- 关注
原创 PPO lagrangian代码实现及解析
最近对安全强化学习(safe RL)比较感兴趣,不过发现针对于安全强化学习的代码开源较少,且各有各的实现风格,于是自己针对PPO编写了PPO lagrangian,特地分享出来与大家探讨学习。代码已发布在。# 定义 Critic 网络(用于奖励值估计)return v_s# 定义 SafeCritic 网络(用于安全代价估计)希望能帮到大家!GitHub上的代码大家觉得好,也可以多多star!
2025-02-22 18:19:54
995
5
原创 自动驾驶强化学习日记--入门篇
本人之前一直学的是监督学习,最近开始研究自动驾驶的决策规划,涉及强化学习,发现强化学习的概念相比之下很多,并且很乱,经常被一些Q函数,Value函数,on-policy,off-policy等概念弄得头昏脑胀。因此,从自动驾驶决策规划的角度出发,把强化学习涉及的概念和算法系统梳理一下,打算以系列的方式,边学边更新。(个人的理解都用加粗标出)
2024-12-18 14:38:15
1157
原创 nuScenes自动驾驶数据集--数据格式详解
nuScenes数据集中各种数据定义,如scene,sample,sweep,sample_data,attribute等,对于初学者来说十分头疼,本人在最近也是学习了好久,想与大家分享一些自己的心得。
2024-12-14 23:19:27
1221
原创 autodl部署复现UniAD--使用nuscenes v1.0-mini
由于本人目前在研究端到端自动驾驶,不过算力有限,因此打算在autodl上部署复现一下经典的UniAD,但是踩了许多坑。特此写下来记录一下(与官方文档不同的部分用红色标出),也方便大家复现,少走弯路。
2024-12-08 17:04:56
1723
8
原创 解决LLaMA-Factory共享链接的创建问题--[To create a public link, set `share=True` in `launch()`.]
其所开发的由gradio驱动的webui更是提供了可视化微调,降低了微调大模型的门槛。这种方法限制了webui模块在服务器或者autodl等租赁网站上的使用,因此,需要修改内部代码,以得到共享链接,便于在个人电脑上操作。中的gradio_share定义为True就可以实现共享链接,但事实上程序并没用调用此函数,而是调用了更深层的。执行如下命令可以下载LLaMA-Factory,所有代码都存放于LLaMA-Factory文件夹中。,即可生成有效时间72h的共享链接,此时就可以在其他电脑上进行访问。
2024-07-28 13:27:51
4167
7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人