自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 PPO lagrangian代码实现及解析

最近对安全强化学习(safe RL)比较感兴趣,不过发现针对于安全强化学习的代码开源较少,且各有各的实现风格,于是自己针对PPO编写了PPO lagrangian,特地分享出来与大家探讨学习。代码已发布在。# 定义 Critic 网络(用于奖励值估计)return v_s# 定义 SafeCritic 网络(用于安全代价估计)希望能帮到大家!GitHub上的代码大家觉得好,也可以多多star!

2025-02-22 18:19:54 995 5

原创 自动驾驶强化学习日记--入门篇

本人之前一直学的是监督学习,最近开始研究自动驾驶的决策规划,涉及强化学习,发现强化学习的概念相比之下很多,并且很乱,经常被一些Q函数,Value函数,on-policy,off-policy等概念弄得头昏脑胀。因此,从自动驾驶决策规划的角度出发,把强化学习涉及的概念和算法系统梳理一下,打算以系列的方式,边学边更新。(个人的理解都用加粗标出)

2024-12-18 14:38:15 1157

原创 nuScenes自动驾驶数据集--数据格式详解

nuScenes数据集中各种数据定义,如scene,sample,sweep,sample_data,attribute等,对于初学者来说十分头疼,本人在最近也是学习了好久,想与大家分享一些自己的心得。

2024-12-14 23:19:27 1221

原创 autodl部署复现UniAD--使用nuscenes v1.0-mini

由于本人目前在研究端到端自动驾驶,不过算力有限,因此打算在autodl上部署复现一下经典的UniAD,但是踩了许多坑。特此写下来记录一下(与官方文档不同的部分用红色标出),也方便大家复现,少走弯路。

2024-12-08 17:04:56 1723 8

原创 解决LLaMA-Factory共享链接的创建问题--[To create a public link, set `share=True` in `launch()`.]

其所开发的由gradio驱动的webui更是提供了可视化微调,降低了微调大模型的门槛。这种方法限制了webui模块在服务器或者autodl等租赁网站上的使用,因此,需要修改内部代码,以得到共享链接,便于在个人电脑上操作。中的gradio_share定义为True就可以实现共享链接,但事实上程序并没用调用此函数,而是调用了更深层的。执行如下命令可以下载LLaMA-Factory,所有代码都存放于LLaMA-Factory文件夹中。,即可生成有效时间72h的共享链接,此时就可以在其他电脑上进行访问。

2024-07-28 13:27:51 4167 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除