l木本I-优快云博客

原创 Reinforcement Learning for VLA(强化学习+VLA)

本文探讨了强化学习（RL）与视觉-语言-动作（VLA）模型结合的机器人操控系统。

2025-12-26 17:57:49 647

原创星尘自研Lumo-1模型（mind to hand）详细解读

《Mind to Hand: 具身推理驱动的机器人控制框架》提出了一种创新性的机器人控制架构，通过离散动作分词器和强化学习实现了语义推理与精准操作的统一。

2025-12-19 15:32:25 748

原创【记录】为ubuntu系统安装显卡驱动后掉网卡驱动

分析解决Ubuntu系统安装NVIDIA显卡驱动后可能出现网卡驱动丢失问题

2025-12-16 18:00:28 307

uv是由Astral团队开发的下一代Python包与项目管理工具，基于Rust编写，具有极速性能（比pip快10-100倍）和统一工具链的特点。它整合了pip、venv、pip-tools等功能，通过全局缓存和硬链接技术大幅降低磁盘占用。相比传统工具链，uv采用现代化的PubGrub依赖解析算法，支持项目中心工作流和临时环境等创新特性。安装简单，提供uv init/sync/add/run等高效命令，特别适合Web开发、Docker构建和CI/CD场景，是提升Python开发效率的革命性工具。

2025-12-11 16:51:10 867

翻译 Kyle Vedder：Robot Learning现状

2025年机器人学习仍主要依赖行为克隆（BC）技术，通过模仿人类演示数据来训练策略。数据收集方式包括主从遥操、智能演示手套和直接人体演示，各有优缺点。当前面临的主要挑战是策略在分布外状态的表现不佳，需通过DAgger方法迭代优化。尽管强化学习（RL）在理论上更具潜力，但由于模拟与现实差距、反事实推理困难等问题，实际应用受限。未来预测显示，视频模型骨干网将取代VLA，世界模型可能成为关键突破。建议关注高效人工演示系统的开发，这是当前最可行的商业化方向。

2025-12-11 11:37:30 43

原创 OpenArm开源项目总结（移植lerobot框架）

本项目将开源机械臂OpenArm适配到LeRobot框架，实现了双臂遥操作和视觉语言动作(VLA)数据采集功能。

2025-12-11 11:17:10 1339

原创大模型低秩微调技术 LoRA 深度解析与实践

探讨了参数高效微调(PEFT)技术中的LoRA方法，针对大模型微调面临的资源挑战，提出通过低秩矩阵分解实现高效适配

2025-06-06 11:28:47 1019

原创大模型：从基座构建到应用落地--预训练与后训练及个人解析-2025.6

探讨大模型预训练与后训练（包括微调和各类应用策略）的原理、成本、技术挑战与优势，为读者构建一个尽量全面的技术图景，结合当前行业趋势，为读者提供一个参考。

2025-06-03 21:06:04 1970 1

原创大模型的分词器——算法及示例

分词是自然语言处理的基础技术，将文本分割为离散单元（如单词、子词或字符）。主流方法包括词级、字符级和子词分词，其中子词分词（如BPE、WordPiece）通过拆分单词平衡了词汇表大小与序列长度。BPE通过频次合并字符对构建词汇表，WordPiece则基于互信息分数优化合并策略。这些方法解决了未知词汇问题，提升了模型效率，广泛应用于GPT、BERT等大型语言模型。分词器的选择需考虑任务需求（单语言/多语言）和文本特性。

2025-06-03 15:30:59 1611