wangle1890-优快云博客

原创每日LeetCode-Day2:相交矩形面积

本文讨论了LeetCode两道关于矩形交集的题目。223题要求计算两个轴对齐矩形的覆盖总面积，关键是通过求交集矩形的长宽（取两矩形坐标的最大最小值）来计算相交面积C。3047题则是在多个矩形中寻找两两交集内可放置的最大正方形面积，核心仍是求交集矩形，但取长宽最小值作为正方形边长。两题都涉及矩形交集的计算：x轴交集长度为两矩形右边界最小值减左边界最大值，y轴同理。计算时需注意边界条件（结果不小于0）和数据类型溢出问题（使用long long）。

2025-07-16 17:11:26 546

原创论文阅读：π0.5: a Vision-Language-Action Model with Open-World Generalization

文章摘要： Physical Intelligence团队提出π0.5模型，通过异构数据协同训练实现机器人开放世界泛化能力。该模型基于π0改进，采用两阶段训练：预训练阶段融合离散动作token与视觉语言数据，后训练阶段引入flow-matching动作专家生成连续动作。π0.5整合了移动机械臂数据、跨形态机器人数据、高层语义子任务预测及网络图文数据，首次实现移动机械臂在全新家庭环境中执行10-15分钟的多阶段任务（如厨房清洁、床铺整理）。实验表明，其泛化能力显著优于π0，关键突破在于：分层架构：显式高层规

2025-07-02 19:01:19 2081 1

原创每日LeetCode-Day1:二叉树遍历

摘要：作者因求职面试中多次挂掉coding环节，决定开启每日算法题专栏提升编程能力。Day1：二叉树遍历，详细讲解如何用C++实现树节点定义、递归遍历（前/中/后序）以及数组转树结构的函数设计，重点剖析了从完全二叉树到含null节点的通用处理方案。通过完整代码示例（含测试用例），强调刷题需注重基础语法和完整程序实现，避免仅练习核心片段导致的低级错误。

2025-06-24 15:39:54 781

原创论文阅读：π0: A Vision-Language-Action Flow Model for General Robot Control

π₀ 是 VLA 领域中首次真正融合预训练视觉-语言模型（VLM） + 高效动作生成的通用机器人模型，具备强语言理解、泛化迁移、复杂操作执行能力，在多个维度推动了通用机器人智能的发展，具有里程碑意义。文章的创新点主要在于：1. 模型结构上：VLM + flow matching架构; 2. 采用类似LLM和VLM的通用预训练+精调的训练方式。

2025-06-19 18:28:05 2335 1

原创论文阅读:RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION

双臂操作在机器人领域中至关重要，但由于协调两只机械臂本身具有高度复杂性（导致动作分布呈多模态），再加上训练数据的稀缺性，开发基础模型极具挑战性。在本文中，文章提出了机器人扩散变换器（Robotics Diffusion Transformer, RDT），这是首个专为双臂操作设计的扩散式基础模型。RDT 基于扩散模型，有效建模多模态特征，并通过创新设计的一种可扩展的 Transformer 结构，处理多模态输入的异质性，捕捉机器人数据中的非线性特性和高频变化。为了解决数据稀缺问题，文章进一步引入了。

2025-06-14 22:22:37 1389 1

原创论文阅读-DP：Diffusion Policy:Visuomotor Policy Learning via Action Diffusion

《DiffusionPolicy:一种新型机器人动作生成方法》摘要：哥伦比亚大学宋舒然团队与MIT教授Russ Tedrake合作提出DiffusionPolicy，一种基于扩散模型的机器人视觉动作生成方法。该方法将机器人策略表示为条件去噪扩散过程，在12个不同机器人操作任务中平均性能提升46.9%。DiffusionPolicy通过随机Langevin动力学迭代优化动作分布，具有三大优势：1) 有效处理多模态动作分布；2) 适应高维动作空间；3) 训练稳定性强。关键技术贡献包括：滚动视界控制、视觉条件

2025-06-11 16:25:43 1050 1

原创论文阅读-Seer：PREDICTIVE INVERSE DYNAMICS MODELS ARE SCALABLE LEARNERS FOR ROBOTIC MANIPULATION

文章思路很简单，相较之前工作，协同优化了视觉和Action，创新点有多创新谈不上，但是实验做的很充分，这一点从审稿人意见也可以看出。所以想发一篇质量不错的paper，把实验做充分，很重要。预训练，是用的Droid数据集，Droid数据集中是Franka机械臂，实际实验也是Franka机器人，对baseline来说对比是否公允？一类侧重于“行动”

2025-06-06 21:50:34 1313 2

yumu1890的博客