肖邦德夜曲-优快云博客

原创 SSH连接：mobaXterm（windows）与VSCODE

本文介绍了两种SSH连接方式的操作指南。在mobaXterm中，通过新建SSH会话，填写IP、端口、用户名并选择私钥文件即可连接。在VSCode中，需安装Remote-SSH扩展，编辑config配置文件添加服务器信息（主机名、IP、用户名、端口和私钥路径），然后通过远程资源管理器进行连接。首次连接需选择操作系统类型并确认信任主机，连接成功后状态栏会显示SSH连接信息。两种方法都提供了详细的参数配置说明和连接步骤指引。

2026-01-06 12:04:55 204

原创开源工具包repomix提取代码框架信息

本文介绍了利用Conda环境和Repomix工具辅助AI开发的三阶段流程。第一阶段通过Conda安装Node.js和Repomix工具，确保环境隔离；第二阶段使用Repomix提取项目代码骨架，生成XML格式文件并过滤无关内容；第三阶段提供两套Prompt模板：先让AI生成高层架构文档理解项目结构，再基于该理解实现具体功能需求。该方法通过标准化流程和结构化交互，提高AI辅助开发的效率和准确性，特别适合需要保持代码风格一致性的项目迭代。

2025-12-24 17:02:06 354

原创 1.强化学习基本概念

本文系统阐述了强化学习的理论基础——马尔可夫决策过程（MDP）及其核心概念。MDP由五元组(S,A,P,R,γ)定义，分别表示状态空间、动作空间、状态转移概率、奖励函数和折扣因子。文章详细解释了状态价值函数v_π(s)和动作价值函数q_π(s,a)的定义及其关系，重点推导了贝尔曼期望方程和最优方程。前者用于策略评估，通过递归分解回报期望；后者通过最大化操作寻找最优策略。文中还给出了这些方程的矩阵形式，并指出在γ<1时存在唯一解。这些方程构成了强化学习算法的理论基础，为策略评估和优化提供了数学保证。

2025-12-05 19:42:59 578

原创 3.DQN（Deep Q-Network）

DQN核心原理与实现摘要 DQN(Deep Q-Network)通过神经网络拟合Bellman最优方程，实现强化学习中的价值函数近似。其核心公式为：目标值=即时奖励+折扣因子×下一状态最大Q值。DQN采用两个关键机制确保训练稳定性：(1)经验回放池存储转移样本并随机抽样，打破数据相关性；(2)固定目标网络定期更新，避免目标值波动。训练过程包含交互环境、经验存储、随机抽样和网络更新四个循环步骤。超参数设置(如学习率、折扣因子、探索率衰减)对性能至关重要。示例代码展示了倒立摆任务的实现框架，包含Q网络、经验回放

2025-12-05 19:11:53 749

原创 2.蒙特卡洛与Q-learning

蒙特卡洛方法与Q-Learning是强化学习中两种重要的无模型学习方法。蒙特卡洛方法通过完整回合的采样结果来估计价值函数，具有无偏差但高方差的特点，适用于有终点的任务。Q-Learning则采用时序差分思想，通过单步更新和自举机制直接估计最优策略的价值，属于异策略算法，能够更高效地学习。两种方法各有优势：蒙特卡洛方法结果准确但收敛慢，Q-Learning更新快速但存在估计偏差。实际应用中常根据任务特性选择合适方法，或结合使用以发挥各自优势。

2025-12-05 15:18:42 589

原创 9.L21灵巧手移植进IsaacGymEnvs

本文介绍了在Isaac Gym环境中添加L21机械手任务的完整流程。首先需要准备URDF文件并放置在assets/urdf目录下，复制任务模板文件并修改为l21_Hand.py。然后创建两个YAML配置文件(L21Hand.yaml和L21HandPPO.yaml)，并在任务初始化文件中注册新任务。关键修改包括：1)重新定义指尖关节；2)调整关节维度(17个关节，16个主动关节)；3)列出16个可动关节名称；4)移除肌腱相关代码；5)调整机械手和物体的初始位置及旋转姿态。最后通过修改旋转四元数来校正机械手的

2025-12-04 17:42:19 325 2

原创 8.IsaacGymEnvs (NVIDIA 官方)的shadow灵巧手强化学习

本文介绍了IsaacGymEnvs的安装与运行流程，并详细解析了其代码架构。主要内容包括：1)通过git克隆仓库并安装依赖；2)运行ShadowHand任务的演示；3)代码目录结构说明，重点介绍配置中心、任务系统、工具箱等核心模块；4)任务系统的实现原理，包括基类接口和具体任务定义；5)训练流程的数据流说明。文章还对比了IsaacGymEnvs与Bi-DexHands的关系，指出后者是基于前者开发的专用于灵巧手研究的改进版本。整个系统通过GPU加速实现高效并行仿真，为机器人强化学习研究提供支持。

2025-12-03 16:54:57 705

原创自注意力机制 (Self-Attention)

在深度学习中，注意力机制的灵感来源于人类的视觉注意力。当你看到一张照片时，你不会盯着整张图看，而是会聚焦在某个特定的核心区域（比如图中的一只狗），而忽略背景。在 NLP 的早期（Seq2Seq 模型时代），处理翻译任务时，模型需要把输入的一长串句子压缩成一个固定长度的向量。这就像让你背诵一篇课文，然后只用一个脑细胞记住所有内容，这会导致长句子的信息丢失。注意力机制的引入解决了这个问题：它允许解码器（Decoder）在生成每一个输出词时，都回头看一遍输入序列（Encoder）。

2025-12-02 16:41:50 1084

原创面向具身操作的视觉-语言-动作模型的综述阅读

具身智能面临"大脑与身体脱节"的核心挑战：大模型虽具备语义理解能力，却无法感知物理执行限制。早期模仿学习存在泛化能力差、数据依赖性强等问题。当前VLA模型发展呈现三个阶段特征：萌芽期（2023前）尝试语言引入但动作离散化；探索期（2023-2024）采用大模型架构但存在实时性不足；快速发展期（2024起）采用分层架构平衡智能与实时性。模型架构包含观测编码、特征推理和动作解码三大模块，训练数据涵盖互联网图文、视频、仿真和真实机器人数据四类。未来需解决大小脑协同、物理常识迁移等关键问题。

2025-12-01 16:00:25 927

原创 5.开源项目Bi-DexHands代码框架

摘要：Bi-DexHands是一个基于强化学习的双手操作项目，采用模块化架构设计。核心包含：1）训练入口train.py负责参数解析和环境初始化；2）tasks模块定义物理仿真环境，实现任务类基础方法；3）algorithms模块实现PPO、MAPPO等算法；4）utils提供辅助工具；5）cfg目录存放Hydra格式的配置参数。项目特色是支持多智能体强化学习，通过GPU并行环境实现高效训练，包含完整的观测计算、奖励设计和网络更新流程。

2025-11-27 19:28:55 575

原创 7.将L21灵巧手移植到开源项目Bi-DexHands上

Bi-DexHands框架提供了双手操作任务的强化学习实现方案。其核心结构包括算法实现(PPO/SAC等)、环境任务定义、配置文件和工具模块。添加新任务需完成以下步骤：1)复制任务模板文件并重命名类；2)创建对应yaml配置文件；3)在config.py中注册任务名称；4)添加模型URDF文件到assets目录并修改路径配置。该框架支持自定义关节限位和奖励函数修改，通过train.py脚本启动训练。L21灵巧手示例展示了如何适配17自由度模型，包括修改指尖关节名称和手掌中心定义。

2025-11-27 19:28:26 176

原创 6.开源项目Bi-DexHands操控ShadowHand灵巧手仿真

该项目是一个基于DexterousHands的机械手控制训练系统，使用IsaacGym模拟器和PPO算法进行训练。主要步骤包括：1) 配置conda环境和安装依赖包；2) 通过train.py脚本训练模型，模型和日志保存在logs目录下；3) 使用TensorBoard可视化训练指标如奖励值、损失函数等；4) 训练完成后可通过指定模型路径进行测试。日志文件包含训练时间戳、主机名等信息，便于追踪实验记录。系统能实时显示训练过程中的关键性能指标，支持机械手控制任务的训练和评估。

2025-11-26 16:45:51 910

原创 Attention(注意力机制)及对Seq2Seq的改进

摘要：本文分析了传统Seq2Seq机器翻译模型的局限性，即处理长文本时易遗忘上下文。介绍了注意力机制的优势，它能动态关注输入序列的相关部分，显著提升翻译质量。详细阐述了注意力计算过程，包括权重计算、文本向量生成和解码器输出等步骤，比较了两种常见的权重计算方法。虽然注意力机制提高了模型性能，但也增加了计算复杂度。文章最后总结了两类模型的关键区别：标准Seq2Seq仅关注当前状态，而注意力机制能全局关注编码器状态，但需付出更高的计算代价。

2025-11-19 19:08:12 413

原创 Sequence-to-Sequence Model（Seq2Seq）

Seq2Seq模型是一种基于编码器-解码器架构的深度学习模型，用于机器翻译等序列转换任务。编码器（如LSTM）将输入序列压缩为上下文向量，解码器据此生成目标序列。采用交叉熵损失函数和教师强制策略优化训练过程。改进措施包括使用双向LSTM、单词级划分（而非字符级）以及多任务训练。该模型能有效处理不同语言间的序列转换，但需足够数据避免过拟合。视频参考详细介绍了其原理和应用。

2025-11-18 18:45:44 607

原创 4.灵心巧手ROS SDK实机运行命令及效果和情况

摘要：本文介绍了灵巧手ROS控制系统的操作流程。首先连接USB转CAN设备和电源，然后依次启动roscore和linker_hand.launch文件。通过rostopic可查看多个手部控制主题，包括/cb_right_hand_info（设备状态）、/cb_right_hand_matrix_touch（力矩阵数据）和/cb_right_hand_torque（扭矩数据）等。系统支持图形化界面控制手部关节角度，并能获取手部版本号、电机温度、错误码等详细信息。所有操作基于ROS Noetic系统，详细参数说

2025-11-17 12:11:15 52

原创 ubuntu20.04外接显示器黑屏的原因与解决方法

摘要：NVIDIA显卡驱动安装后仍出现卡屏问题，原因是外接显示器（HDMI-1-1）与主屏（eDP-1）刷新率不匹配。通过xrandr检测显示，两者虽同为2560x1440分辨率，但刷新率分别为120Hz和59.99Hz，导致镜像模式失败。解决方法：使用xrandr命令统一刷新率参数，如"xrandr --output HDMI-1 --same-as eDP-1 --mode 2560x1440 --rate 59.95"。（149字）

2025-11-12 17:23:26 178

原创 3.灵心巧手的L21灵巧手pybullet仿真及图形页面控制（ROS1）

本文介绍了Linker Hand灵巧手ROS仿真系统的配置与使用方法。主要内容包括：1）修改gui_control.launch文件参数以适配不同灵巧手版本；2）启动图形界面和Pybullet仿真环境的具体操作步骤；3）指出L21型号的URDF文件存在问题，建议从指定网站获取正确的URDF文件替换；4）提供完整的仿真控制器代码实现，包含Pybullet环境初始化、关节控制、状态发布等功能；5）展示节点通信结构和消息格式。该系统支持双手控制仿真，通过ROS话题实现机械手状态数据的实时发布与控制指令的接收执行。

2025-11-12 09:52:14 668

原创 2.灵心巧手L21基于PyBullet仿真配置

摘要：本文介绍了Linker Hand机械手PyBullet仿真的安装与使用方法。主要步骤包括：1）创建目录并克隆GitHub仓库；2）安装依赖包；3）启动ROS环境和PyBullet仿真。针对可能出现的"Not connected to physics server"错误，提出了解决方案：修改l21_sim_controller.py文件中包名称为linker_hand_pybullet_ros。最后说明了不同手型号（L7/L10/L20/L21/L25）对应的控制关节位置参数。（15

2025-11-11 17:34:37 498

原创 1.灵心巧手ROS SDK下载配置与问题排查

本文介绍了在Ubuntu20.04系统上配置LinkerHand灵巧手ROS SDK的完整流程。主要包括：创建ROS工作空间并下载SDK、安装依赖（解决空间不足及版本冲突问题）、配置PATH环境变量、编译工作空间、修改setting.yaml和launch配置文件、连接硬件设备等步骤。最后详细说明了如何启动SDK，并针对常见报错提供了解决方案。整个过程涉及多个关键配置环节，需特别注意依赖版本匹配和文件权限设置，确保ROS节点能正确运行。

2025-11-10 21:25:57 944

原创 Text generation： what is the next char/word?

摘要：该RNN模型在字符级别处理文本，采用ONE-HOT编码和softmax函数预测字符概率。训练时将文本切分成固定长度片段，输入片段与标签以特定步长移动。模型输出风格取决于训练数据（如莎士比亚作品）。训练过程包括数据准备、编码、网络搭建和模型训练。预测策略有三种：贪婪策略（确定性高但多样性低）、多项式抽样（随机性强但可能出错）以及温度调节法（平衡两者）。温度参数控制概率分布的集中程度，温度越低输出越保守，越高则越随机。

2025-11-04 18:09:56 218

原创 RNN模型扩展

摘要：本文介绍了堆叠RNN和双向RNN的实现方法，展示了PyTorch代码示例。堆叠RNN通过多层LSTM提取特征，最后时间步的隐藏状态作为特征向量。双向RNN通过正向和反向处理拼接输出特征，效果优于单向。文章建议：1)优先使用LSTM而非简单RNN；2)尽可能使用双向结构；3)大数据时堆叠多层；4)小数据时可预训练嵌入层。代码演示了两种RNN的参数设置和前向传播过程，包括隐藏状态初始化和输出处理。

2025-11-04 13:23:33 386

原创 LSTM（Long Short-Term Memory）模型学习

决定哪些新信息需要被存入 “细胞状态”，比如将当前句子的核心动词加入记忆。

2025-10-29 19:24:55 423

原创 RNN(Recurrent Neural Networks)学习

文本处理对模型的核心需求，本质是匹配不同场景下的输入 - 输出对应关系。处理一对多，多对多输入输出关系或者不定长输出往往是语言类模型（e.g预测下一个单词）需要处理的问题。如何处理时序数据？在前面的学习中已经学会了关于词嵌入的相关知识，即如何把单词转化为机器可以识别的向量。下面详细讲讲RNN的结构和基础知识这里面的Xt是嵌入后的词向量，ht是输出的向量（eg.预测下一个单词时的输出），最终输出的向量为Ht（包括了之前所有词的信息），矩阵A为常量矩阵（不变，可根据训练迭代）

2025-10-29 13:17:20 639

原创机器学习数据处理学习（one-hot编码和文本嵌入）

（如 “根据上下文预测中心词” 或 “根据中心词预测上下文”），并通过最小化预测误差（如交叉熵损失）来反向传播更新矩阵 P 的参数。最终，矩阵 P 的每一行（或列）就对应一个单词的低维语义表示，

2025-10-28 16:01:48 417

原创 Jetson Agx Xariar从零开始的完整刷机步骤

问题：笔者在下载jetson sdk组件的时候报了下面的错误。也就是usb虚拟网口的连接问题，这种是由于usb不太行导致的。然后等待一段时间就可以刷机成功。

2025-08-13 17:32:22 236

原创在树状图中修改webots的模型

本文对比了机器人结构修改前后的差异，核心改动在于为前右腿添加了同轴关节结构（wheelHingeJoint和wheelSolid），同时保留原有小腿结构。这种设计既能复用电机和传感器，又不会造成干扰。此外，文中指出四足机器人设计中需要尽量减轻足部重量，否则会出现所需扭矩超出电机最大扭矩限制的问题（85.4 vs 43.5）。最后还简要说明了Webots仿真软件中红、绿、蓝三色分别对应X、Y、Z坐标轴的标准。

2025-05-27 16:11:38 482

原创 Webots的不同版本之间的移植

有些文件的转换需要用到官方的脚本，需要前往官网下载。

2025-05-27 12:13:22 625

原创 webots笔记，4足狗proto文件结构框架（添加传感器）

文章摘要：本文分析了四足机器人A1模型的结构特点和传感器移植方法。模型采用树状层级结构，主体包含躯干Solid和铰链关节HingeJoint，每条腿由胯部、大腿、小腿和足端组成，共3个关节5个Solid。传感器的添加需在关节children节点下完成，涉及关节名称、传感器名称和轴向等多处修改。实践发现：1）Solid内需定义关节名称；2）HingeJoint包含关节参数和驱动装置；3）直接修改proto文件易出错。移植传感器时还需注意配置同轴等参数，整体工作量较大。

2025-05-26 21:39:55 831

原创 Webots2022使用日记

meshes比较特殊，因为是自己添加上去的（找原始proto文件里面的原始路径），里面是STL文件，要修改proto文件中的url路径，由绝对路径改为相对路径，如"../../BODY.STL"和“../meshes/body.STL”是相对路径，“D:/**/**/**/Webots/meshes/body.STL”是绝对路径。controllers是存放控制器代码的文件夹，protos是存放机器人模型的文件夹，world是存放世界的文件夹，打开运行文件就可以开始仿真。

2025-05-23 19:52:18 518

原创 ubuntu22.04&20.04快速上手

4.鱼香ros的快速下载（ros2,微信，VSCODE，QQ版本过低）5.下载anaconda，下载ros前要关闭bash环境。3.启动下载（可以看阿杰的视频）2.插入有镜像的安装盘。1.分盘（空闲状态）

2025-05-09 10:56:50 188

2301_81827665的博客