自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 资源 (1)
  • 收藏
  • 关注

原创 【mpi4py卡死】mpiexec运行命令出现没反应 卡死等情况from mpi4py import MPI

【mpi4py卡死】运行命令出现没反应 卡死等情况from mpi4py import MPImpiexecfrom mpi4py import MPI解决方法mpiexecmpiexec 是 MPI 程序的启动器,它用于启动多个并行进程,在多个 CPU 核甚至多台机器上 同时运行一个程序,并让这些进程之间可以通信和协作MPI 全称是 Message Passing Interface,用于 并行计算,而 mpiexec 是它的命令行入口。from mpi4py import MPI在命令行

2025-03-20 11:54:09 211

原创 【screen、tmux】screen、tmux终端命令挂起工具使用方法简述

【screen、tmux】screen、tmux终端命令挂起工具使用方法简述screen、tmux简介screen使用方法安装基础操作启动新会话创建命名会话分离会话(后台运行)重新进入最近的会话重新进入指定的会话列出所有会话彻底关闭当前会话使用示例tmux使用方法安装基础操作创建命名会话分离会话(后台运行)重新进入到指定会话(-t 指定名称)列出所有会话关闭当前会话screen、tmux简介在使用 Linux 或类 Unix 系统时,screen 和 tmux 是

2025-03-15 15:16:56 486

原创 【spacedesk扩展屏幕】两台笔记本通过spacedesk扩展屏幕 设置分辨率

【spacedesk扩展屏幕】两台笔记本通过spacedesk扩展屏幕 设置分辨率前提分辨率设置前提请注意:需要扩展屏幕的笔记本安装spacedesk driver只提供屏幕的笔记本安装spacedesk viewer也就是spacedesk client分辨率设置spaceviewer一端:Setting–>Display–>打开Native resolution–>Select the custom resolution中选择想要设置的分辨率

2025-03-13 10:16:04 258

原创 【具身相关】legged_gym, isaacgym、rsl_rl关系梳理及相关笔记

【legged_gym】legged_gym, isaacgym代码逻辑梳理总体关系IsaacGymlegged_gymrsl_rl三者的关系legged_gym代码库介绍环境模块env

2025-03-12 23:43:43 1373

原创 【isaacgym报错】安装isaacgym运行报错RuntimeError: Error building extension ‘gymtorch‘

【isaacgym报错】安装isaacgym运行报错RuntimeError: Error building extension 'gymtorch'环境配置报错场景报错信息解决方法

2025-03-12 18:24:59 853

原创 【强化学习基础算法】基础算法:贪婪算法 策略迭代 价值迭代 Sarsa Q-learning核心思想简介

【强化学习基础算法】基础算法:贪婪算法 策略迭代 价值迭代 Sarsa Q-learning核心思想简介贪婪算法ϵϵ-贪婪算法递减的ϵϵ-贪婪算法上置信界算法UCB汤普森采样法基于动态规划的强化学习算法策略迭代价值迭代时序差分算法Sarsa算法Q-learningN步sarsa算法参考文献

2025-03-02 13:37:52 836

原创 【github】Pull Requests(PR)操作流程介绍及clone报错解决方法Failed to connect to github.com port 443 after 21100 ms

【github】Pull Requests PR操作流程介绍及clone报错解决方法Failed to connect to github.com port 443 after 21100 msPull Requests操作简介Example什么是 Pull Request?Pull Request 的步骤vscode PR操作实例1.fork想要进行PR操作的项目2.将fork后的新项目clone 到本地3.新建分支4.切换到新建的分支中5.在新建的分支中进行修改并推送6. 在自己的

2025-02-13 18:41:01 873

原创 【强化学习】Stable-Baselines3学习笔记

这三个项目都是Stable Baselines3生态系统的一部分,它们共同提供了一个全面的工具集,用于强化学习的研究和开发。SB3提供了核心的强化学习算法实现,而RL Baselines3 Zoo提供了一个训练和评估这些算法的框架。SB3 Contrib则作为实验性功能的扩展库,SBX则探索了使用Jax来加速这些算法的可能性。

2024-12-23 16:52:20 2939

原创 【Pycharm相关设置】新版Pycharm关闭主菜单,取消自动隐藏工具栏

【Pycharm相关设置】新版Pycharm关闭主菜单,取消自动隐藏工具栏Pycharm主菜单关闭主菜单Pycharm主菜单新版pycharm多了主菜单,会自动隐藏工具栏,强迫症犯了 找了很久关闭的地方

2024-12-19 23:14:01 546

原创 【Nvidia Driver安装】Ubuntu下显卡驱动的安装及踩坑日记 安装驱动后掉网卡、无网络 内核升级等情况

【Nvidia Driver安装】Ubuntu下显卡驱动的安装及踩坑日记 安装驱动后掉网卡、无网络 内核升级等情况1.Ubuntu中安装显卡驱动的方法2.踩坑日记:安装显卡驱动后掉网卡 无网络 内核升级3.解决方法4.安装后出现开机黑屏、内核升级等问题的解决方案

2024-10-20 18:02:24 2126

原创 【conda环境打包】ubuntu的conda环境打包导出方法 conda-pack

【conda环境打包】ubuntu的conda环境打包导出方法 conda-packubuntu下anaconda虚拟环境打包ubuntu20.04 conda pack 打包虚拟环境,直接将其用到其他终端使用conda-pack迁移环境

2024-10-20 17:31:47 900

原创 【Easy RL】Easy RL蘑菇书全书学习笔记

【Easy RL】Easy RL蘑菇书全书学习笔记第一章 强化学习基础1.1 强化学习概述监督学习强化学习与监督学习的不同之处二者的区别总结强化学习的特征强化学习的优越性预演(rollout)和 轨迹(trajectory)的概念端到端的概念深度强化学习(deep reinforcemet learning)sim2real1.2序列决策基本概念状态和观测的关系环境信息完全可观测-->马尔科夫决策过程环境信息部分可观测-->部分可观测马尔可夫决策过程

2024-10-07 22:01:20 1485

原创 【word脚注】双栏设置word脚注,脚注仅位于左栏,右栏不留白

【word脚注】双栏设置word脚注,脚注仅位于左栏,右栏不留白。调整前:脚注位于左下角,但右栏与左栏内容对其,未填充右下角的空白区域

2024-10-02 12:24:05 7143

原创 【win11安装appx】安装TranslucentTB所需依赖winui-x64.appx失败,错误消息: 错误 0x80070005: 从位置 winui-x64.appx 中打开程序包失败

【代码】【win11安装appx】应用安装失败,错误消息: 错误 0x80070005: 从位置 winui-x64.appx 中打开程序包失败。

2024-10-01 15:59:44 1375

原创 【Ubuntu】Ubuntu双网卡配置 实现内外网互不影响同时可用

【Ubuntu】Ubuntu双网卡配置 实现内外网互不影响同时可用

2024-09-14 22:01:11 3184

原创 【强化学习环境搭建】mujoco,mujoco_py,d4rl等强化学习相关资源安装及使用的参考资料链接 持续更新ing

【强化学习环境搭建】mujoco,mujoco_py,d4rl等强化学习相关资源安装及使用的参考资料链接 持续更新ing1.安装mujoco2.安装mujoco_py3.安装d4rl4.安装gym或gymnasium在此博客中记录一些配置强化学习环境时 遇到的优质参考资料,持续更新ing~

2024-09-11 21:04:55 570

原创 【Zotero插件】Zotero Tag为文献设置阅读状态 win11下相关设置

【Zotero插件设置】Zotero Tag为文献设置阅读状态 win11下相关设置1.安装Zotero Tag1.1安装1.2配置1.3 win11的相关设置1.3.1 字体安装参考教程2.支持排序的标注参考教程

2024-07-23 23:09:07 5077

原创 【win11】Mouse without Borders安装问题&以管理员权限安装msi文件

【win11】Mouse without Borders安装问题&以管理员权限安装msi文件Mouse without Borders安装问题以管理员权限安装msi文件the installers has encountered an unexpected error installing this package. this may indicate a problem with this package. the error code is 2503

2024-06-27 20:18:14 1591

原创 【Ubuntu双系统】两块硬盘分别安装系统,一块硬盘安装Ubuntu 一块安装Windows

【Ubuntu双系统】两块硬盘分别安装双系统,一块硬盘安装Ubuntu 一块安装Windows前言安装Ubuntu前置操作安装过程参考文献前言机器情况:两块1T的硬盘,其中一块已安装Windows 11现需在另一块硬盘上安装Ubuntu,该硬盘还未初始化Ubuntu安装参考教程来自:【ubuntu20.04】10分钟win10安装ubuntu20.04双系统(无需Bios设置)由于需要为两块硬盘分别安装系统,而该教程是在同一块硬盘上安装双系统,在中间步骤与该教程略有区别

2024-06-12 23:24:36 3111

原创 【强化学习】gymnasium自定义环境并封装学习笔记

【强化学习】gymnasium自定义环境并封装学习笔记gym与gymnasium简介gymgymnasiumgymnasium的基本使用方法使用gymnasium封装自定义环境官方示例及代码编写环境文件__init__()方法reset()方法step()方法render()方法close()方法注册环境创建包 Package(最后一步)创建自定义环境示例

2024-06-12 16:39:33 4697

原创 【强化学习】DPO(Direct Preference Optimization)算法学习笔记

【强化学习】DPO(Direct Preference Optimization)算法学习笔记RLHF与DPO的关系KL散度Bradley-Terry模型DPO算法流程

2024-05-30 20:14:27 9854

原创 【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程

【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程RLHF训练的三个步骤步骤1:收集数据与有监督训练策略步骤2:收集数据训练奖励模型步骤3:结合奖励模型利用强化学习算法如PPO算法来优化策略参考内容

2024-05-29 11:03:14 1771

原创 【强化学习】Q-learning,DQN,SARSA算法介绍

【强化学习】Q-learning,DQN,SARSA算法介绍强化学习算法分类基于价值的方法基于策略的方法Actor-Critic方法Q-learning算法DQN算法强化学习训练数据存在的问题经验回放机制备份网络机制Sarsa算法总结

2024-05-27 18:13:59 1186

原创 【Ubuntu常用命令】终端个人常用命令总结

【Ubuntu常用命令】终端常用命令总结查看硬盘挂载情况查看内存占用情况移动或重命名文件和目录复制文件或目录

2024-05-27 10:21:47 1280

原创 【强化学习】强化学习基础教程:基本概念、强化学习的定义,要素,方法分类 以及 Rollout、episode回合、transition转移、trajectory轨迹的概念

【强化学习】强化学习基础教程:基本概念、强化学习的定义,要素,方法分类 以及 Rollout、episode回合、transition转移、trajectory轨迹的概念1.基础概念1.1 强化学习的定义1.2 强化学习的基本要素2.强化学习分类2.1 根据agent学习方式分为基于策略的强化学习Policy based RL ,基于价值的强化学习Value based RL以及Actor-Critic方法2.2 根据理不理解所处的环境(agent有无学习环境的模型)分为model-based与

2024-05-27 10:11:45 7915

原创 【动手学强化学习】第 7 章 DQN算法知识点总结

【动手学强化学习】第 7 章 DQN算法知识点总结本章知识点离散和连续的概念CartPole 环境DQN算法简介�Q网络的损失函数经验回放目标网络DQN 代码实践关于代码的思考及各变量的维度问题适用于以图像为输入的 Q网络

2024-05-24 19:02:36 826

原创 【动手学强化学习】第 6 章 Dyna-Q 算法知识点总结

【动手学强化学习】第 6 章 Dyna-Q 算法知识点总结本章知识点基于模型的强化学习与无模型的强化学习方法简介无模型的强化学习方法基于模型的强化学习方法强化学习算法的评价指标Dyna-Q算法Dyna-Q 算法的具体流程Dyna-Q 代码实践

2024-05-23 12:50:47 860

原创 【动手学强化学习】第 5 章 时序差分算法知识点总结

【动手学强化学习】第 5 章 时序差分算法知识点总结本章知识点:动态规划与时序差分(temporal difference,TD)的区别时序差分Sarsa算法多步Sarsa算法Q-learning算法在线策略学习和离线策略学习

2024-05-15 15:04:47 1033

原创 【Docker】Ubuntu下Docker的基本使用方法与常用命令总结

【Docker】Ubuntu下Docker的基本使用方法与常用命令总结。镜像image与容器container的关系基本命令- 查看 Docker 版本- 拉取镜像- 查看系统中的镜像- 删除某个镜像- 列出当前 Docker 主机上的所有容器,包括正在运行的、暂停的、已停止的,以及未运行的容器- 列出当前 Docker 主机上的正在运行的容器- 进入正在运行的容器- 退出容器- 删除容器- 使用 docker start 命令后跟容器 ID 或名称来启动容器- 停止正在运行的容器

2024-05-12 12:28:42 2548

原创 【深度学习】wandb模型训练可视化工具使用方法

Wandb(Weights & Biases)是一款专为机器学习和深度学习设计的可视化工具,旨在帮助开发者更高效地跟踪、可视化和共享实验结果提供在线平台,可以轻松记录实验的超参数、输出指标以及模型的变化,并通过直观的仪表盘展示这些信息与tensorboard类似,均是机器学习可视化分析工具wandb相较于Tensorboard的优势:1.wandb的日志文件上传云端存储,可永久保存,tensorboard存储在本地2.wandb存储代码,数据集,模型,

2024-04-17 10:10:00 5954 3

原创 【深度学习】执行wandb sync同步命令报错wandb: Network error (SSLError), entering retry loop

【代码】【深度学习】执行wandb sync同步命令报错wandb: Network error (SSLError), entering retry loop。

2024-04-16 20:11:19 1929 4

原创 【动手学强化学习】第四章 动态规划算法知识点总结

【动手学强化学习】第四章 动态规划算法知识点总结 动态规划简介 基于动态规划的强化学习算法 悬崖漫步环境 策略迭代算法 策略评估:根据ππ计算VπVπ 策略提升:根据VπVπ优化ππ 策略提升定理的证明 策略迭代 价值迭代算法 收敛性证明 策略迭代 价值迭代 总结

2024-04-13 23:19:33 1272 1

原创 【动手学强化学习】第三章 马尔可夫决策过程 知识点总结

【动手学强化学习】第三章 马尔可夫决策过程 知识点总结本章知识点:马尔可夫性质马尔可夫过程(也称为马尔可夫链)马尔可夫奖励过程马尔可夫决策过程策略马尔可夫决策过程的状态价值函数马尔可夫决策过程的动作价值函数状态价值函数与动作价值函数的关系贝尔曼期望方程MDP马尔可夫决策过程转换为MRP马尔可夫奖励过程蒙特卡洛方法占用度量最优策略贝尔曼最优方程(Bellman optimality equation)

2024-04-08 12:09:46 1189

原创 【深度学习环境配置】一文弄懂cuda,cudnn,NVIDIA Driver version,cudatoolkit的关系

查看自身显卡的算力,在此网站中搜索显卡型号,可以看到我显卡对应的算力是7.5该网站的后面有CUDA版本和算力的对应关系,查看显卡算力支持的CUDA版本

2024-04-06 19:32:29 2779

原创 【动手学强化学习】第二章 多臂老虎机问题 知识点总结

【动手学强化学习】第二章 多臂老虎机问题本章知识点:探索与利用的含义、多臂老虎机问题、累积懊悔的定义、增量式更新期望奖励、经典探索策略(ϵ-贪婪算法、上置信界UCB算法、汤普森采样算法)

2024-04-06 11:41:30 2376

原创 【动手学强化学习】第一章 初探强化学习知识点总结

动手学强化学习 第一章主要的知识点:强化学习的定义、要素、环境、目标、预测与决策的区别、有监督学习与强化学习的区别

2024-04-01 23:16:44 1043

原创 【Pytorch入门】小土堆PyTorch入门教程完整学习笔记(详细笔记并附练习代码 ipynb文件)

【Pytorch入门】小土堆PyTorch入门教程完整学习笔记(详细笔记 文末附练习代码 ipynb文件)

2024-03-28 15:27:17 17532 26

原创 【监控GPU】监控NVIDIA GPU显卡占用状态的常用命令

每隔X秒执行一次 nvidia-smi 命令,并持续显示 GPU 的使用情况。这样可以更频繁地更新 GPU 的状态信息,提供更实时的监控数据。nvitop 是一个基于 NVIDIA GPU 的实时性能监控工具,类似于 Linux 系统上的 top 命令。windows下可使用以下命令,可达到类似效果,每秒更新一次信息,但每次都会打印一遍信息 体验不是很好。nvitop能够以可视化的方式展示GPU的实时数据,对于监控 GPU 的性能和状态非常有用。每隔 0.5 秒执行一次nvidia-smi命令。

2024-03-23 20:11:54 14560

原创 【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程,贝尔曼最优方程推导过程

1.回报2.当前时刻的回报与下一时刻回报的关系3.状态价值函数4.动作价值函数5.状态价值函数与动作状态价值函数的关系6.贝尔曼期望方程7.状态价值函数的贝尔曼期望方程8.动作价值函数的贝尔曼期望方程9.贝尔曼期望方程的另一种理解方式,结合下图理解

2024-03-21 15:53:14 718

原创 【强化学习】安装gym==0.18.3报错的解决方法

安装gym==0.18.3报错的解决方法Collecting gym==0.18.3 Using cached gym-0.18.3.tar.gz (1.6 MB) Preparing metadata (setup.py) ... error error: subprocess-exited-with-error × python setup.py egg_info did not run successfully. │ exit code: 1 ╰─> [1 lines

2024-03-18 10:37:52 2956 2

篮球计分器含C语言程序+仿真图+开发资料-计分-计时蜂鸣-24s进攻倒计时使用矩阵键盘+LCD液晶显示屏+蜂鸣器适用于普中单片机

使用矩阵键盘,LCD1602液晶显示屏,蜂鸣器实现的篮球计分器,可实现两队分数显示 及分数+1 +2 +3,胜局数比分显示及增减,24s进攻倒计时,比赛时间倒计时,时间到蜂鸣器响1s,含C语言程序+仿真图+开发资料。

2022-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除