- 博客(11)
- 收藏
- 关注
原创 【具身智能】VLA相关文献总结截止2025-12-2
本文综述了视觉-语言-动作(VLA)模型在机器人控制领域的最新研究进展,重点分析了32篇代表性论文的核心创新点与技术贡献。这些研究主要围绕以下方向展开:1)通过课程学习(AdaCuRL)、链式推理(CoT4AD)和扩散策略(DiffusionPolicy)等方法提升模型的推理能力;2)采用轻量化架构(SmolVLA)、边缘部署(LiteVLA)和令牌剪枝(VLA-Pruner)优化计算效率;3)结合强化学习(RLINF-VLA)和在线优化(πRL)增强自适应性能。
2025-12-02 20:51:36
684
原创 【具身智能基础】强化学习
本文系统介绍了强化学习的核心概念与主流算法。首先阐述了强化学习的基本框架,包括智能体与环境交互、马尔可夫决策过程、蒙特卡洛采样等基础理论。随后详细解析了时序差分(TD)方法体系,包括Q-Learning、SARSA及其深度版本DQN等价值型算法。然后重点讨论了策略梯度(PG)方法及其改进版本Actor-Critic架构,涵盖A2C、A3C、DDPG、PPO、GRPO、DPO等算法。
2025-11-29 16:32:59
606
原创 【具身智能基础】 BERT代码解析与实战
本文详细解析了BERT模型的架构与实现,包括分词器(BertTokenizer)和核心模型(BertModel)两大部分。分词器部分介绍了词汇表加载、基础分词流程、子词分割等核心组件,重点讲解了WordPiece算法实现。模型部分深入剖析了嵌入层、注意力模块、Transformer层、编码器堆叠等核心结构,并详细说明了预训练任务头和下游任务模型的设计原理。文章还提供了情感分类任务的微调实战代码,展示了如何使用HuggingFace库进行BERT模型训练和预测。
2025-11-21 20:54:48
552
原创 【具身智能基础】图解BERT
BERT是一种基于Transformer架构的预训练语言模型,通过完形填空和相邻句子判断任务进行无监督训练。其核心思想是先在大规模语料上进行预训练,再针对特定任务进行微调。BERT-base和BERT-large分别对应12层和24层Transformer编码器,输入时添加[CLS]标记用于句子表示。在多种NLP任务上取得突破性成果。该模型开创了预训练+微调的NLP处理范式,极大提升了自然语言处理的效果。
2025-11-01 13:46:04
655
原创 【具身智能基础】图解Transformer架构
本文详细介绍了Transformer模型的结构和工作原理。Transformer由编码器和解码器两部分组成,编码器采用多层堆叠结构,每层包含自注意力机制和前馈神经网络;解码器在编码器基础上增加了掩码自注意力和交叉注意力机制。文章重点解析了自注意力计算过程、多头注意力机制、残差连接与层归一化等关键技术,并阐述了输入处理(词向量和位置编码)、损失函数等模块的设计原理。该模型通过并行计算和注意力机制,克服了传统RNN的序列处理局限,在机器翻译等任务中表现出色,成为NLP领域的基础架构。
2025-10-24 15:25:42
654
原创 【具身智能基础】机器人正逆运动学与路径规划
本文系统介绍了机器人运动控制三大核心技术:正运动学(FK)用于根据关节参数计算机器人末端位姿;逆运动学(IK)解决从末端位姿反求关节参数的问题,存在多解性和奇异性挑战;轨迹规划则包含关节空间和笛卡尔空间两种方法,分别适用于不同精度的运动需求。文章详细阐述了MDH参数法、解析法与数值迭代法等核心算法,并讨论了多项式插值、B样条等轨迹规划方法,最后指出实际应用中需综合机器人结构、任务需求选择合适算法。为机器人运动控制提供了系统的理论框架和技术方案。
2025-10-17 17:45:53
957
原创 【具身智能基础】手眼标定
手眼标定是机器人视觉引导的核心技术,用于建立机器人坐标系与相机坐标系之间的转换关系。主要分为眼在手外(相机固定)和眼在手上(相机随机械臂移动)两种构型。标定前需完成相机内参标定以消除畸变。标定过程包括数据采集(记录机械臂位姿与标定板图像)、预处理、求解AX=XB方程及精度验证。最终得到4×4齐次变换矩阵,使机器人能准确执行视觉引导的操作任务。
2025-10-11 17:50:57
1148
原创 【具身智能基础】坐标系与位姿变换
本文系统介绍了机器人位姿描述的数学工具与方法。重点讲解了齐次矩阵在机器人学中的应用,包括其结构定义、核心作用(位姿变换、复合变换、逆变换)以及典型应用场景。文章首先区分了机器人关节坐标系与笛卡尔坐标系的特点,然后详细阐述了位姿的表示方法,特别是通过4×4齐次矩阵将旋转和平移统一表达的优势。最后总结了齐次矩阵在机器人运动学、计算机图形学等领域的实用价值,强调其作为位姿描述标准工具的重要性。
2025-09-30 14:39:58
1395
原创 【具身智能基础】姿态描述之旋转矩阵、欧拉角、四元数
本文介绍了三维空间物体姿态的三种主要表示方法:旋转矩阵、欧拉角和四元数。旋转矩阵使用3×3正交矩阵表示旋转,直观但参数冗余;欧拉角通过三个角度描述旋转,直观但存在万向锁问题;四元数由四个参数组成,计算高效且无万向锁,但难以理解。文章对比了三种方法的优缺点和应用场景:旋转矩阵适合理论推导,欧拉角便于人机交互,四元数则是工程实时系统的优选。实际应用中常需进行三者间的转换配合使用。
2025-09-25 18:40:47
718
原创 【Linux嵌入式】在linux开发板上通过SMTP发送邮件
本文介绍在Linux开发板上实现邮件通知的方法,核心是通过轻量级工具msmtp和mutt连接公共邮箱SMTP服务发送邮件。步骤包括:确保网络通畅、获取邮箱SMTP授权码、安装配置msmtp和mutt、编写发送逻辑并测试。适用于嵌入式Linux系统,支持文本和附件发送,可集成到C程序或脚本中实现自动化告警功能。配置需注意权限和SSL加密,失败时可通过日志排查问题。
2025-09-02 14:30:13
786
原创 【Linux嵌入式】RK3588开发板安装MQTT客户端开发环境paho.mqtt.c
本文介绍了在Linux-RK3588开发板上安装Eclipse Paho MQTT C Client Library(paho.mqtt.c)的完整流程。首先通过apt安装编译工具和依赖库(build-essential/cmake/openssl),然后下载源码并配置SSL支持与共享库编译选项。通过cmake生成Makefile后执行编译安装,最后配置动态链接库路径并验证头文件及库文件是否安装成功。该库与mosquitto(MQTT Broker)配合,可支撑配电物联网设备与平台间的MQTT协议通信
2025-07-16 15:06:05
594
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅