SpiceUpLife-优快云博客

原创 pi0.6解读 π∗ 0.6: a VLA That Learns From Experience

RECAP算法摘要本文提出RECAP算法，通过优势条件策略实现视觉-语言-动作(VLA)模型的迭代优化。核心流程分为三阶段：预训练：基于多任务演示数据$D_{demo}$，通过Eq.1训练通用价值函数$V_{pre}$，结合Eq.3训练基础策略$\pi_{pre}$；任务适配：针对目标任务$\ell$，用专属演示数据微调获得初始模型$V^0_\ell$和$\pi^0_\ell$；迭代优化：部署策略采集自主数据与专家干预数据，更新数据集$D_\ell$后重新训练价值函数（Eq.1）和策略（Eq.3）。

2025-11-25 11:06:08 1200

原创一文理清强化学习（RL）基本原理（DQN、PPO、GRPO）

类别核心思想代表算法基于值学 Q 值函数基于策略直接优化策略二者结合模型化RL学习环境模型进阶RL多智能体、元学习、自博弈强化学习是一个让机器学会“如何行动”的学问。它的核心是通过试错与奖励信号优化策略，以实现长期收益最大化。

2025-11-09 16:10:55 819 1

原创具身领域的Scaling Law （GEN-0 / Embodied Foundation Models That Scale with Physical Interaction）

本文探讨了不同AI领域的缩放定律（Scaling Laws），揭示了模型性能与计算资源、规模及数据量之间的量化关系。在LLM领域，幂律关系确立了"规模即能力"的认知；VLM研究则发现早期融合架构在低计算预算下更优，MoE模型性能显著提升；RFM领域验证了机器人任务中缩放定律的有效性，同时指出数据多样性的重要性；LBM研究显示其在多任务场景下的数据效率优势。实践案例（如小鹏、GO-1模型）验证了这些规律，但当前研究仍受限于任务复杂度，未来需探索更复杂场景的应用。

2025-11-05 21:22:10 960

原创北京人形开源WoW具身世界模型 WOW: TOWARDS A WORLD-OMNISCIENT WORLDMODEL THROUGH EMBODIED INTERACTION

WoW：具身交互驱动的14B参数生成式世界模型摘要：WoW（World-Omniscient World Model）是一个基于大规模真实机器人交互数据训练的14B参数世界模型，旨在通过具身交互发展物理直觉。其创新点包括：1）SOPHIA自优化框架，结合DiT视频生成与VLM评估反馈的闭环优化；2）Flow-Mask逆动力学模型（FM-IDM），实现从想象视频到7自由度机器人动作的转换；3）WoWBench评测基准（606样本/20子任务），验证模型在物理一致性（80.16%）和指令理解（96.53%）方

2025-11-02 17:34:34 1118

原创生成模型对比

本文对比了五种主流生成模型：VAE通过概率编码器/解码器学习潜在分布，生成样本较模糊但训练稳定；GAN采用对抗机制生成高质量样本，但训练不稳定；DDPM通过逐步去噪生成高保真样本，但推理速度慢；DDIM是DDPM的加速版本，支持快速确定性生成；Flow Matching将生成过程建模为连续动力系统，统一了多类模型。各模型在概率建模、训练稳定性、样本质量和速度等方面各有优劣，适用于不同场景（如VAE适合表征学习，GAN适合图像生成，扩散模型适合文生图）。

2025-10-27 20:51:07 873

原创过拟合与欠拟合

机器学习中，过拟合和欠拟合是两种常见问题。欠拟合指模型过于简单，无法捕捉数据规律，表现为训练集和测试集误差都较高，可通过增加模型复杂度或特征数量解决。过拟合则是模型过于复杂，记住了训练数据噪声而非规律，表现为训练误差低但测试误差高，可通过正则化、增加数据量或简化模型来改善。理想模型需要在偏差和方差之间取得平衡，既足够强大又不至于过度敏感。通过分析训练集和验证集的误差趋势，可以判断模型处于哪种状态并采取相应优化措施。

2025-10-07 14:58:01 440

原创 WALL-OSS 点燃面向具身空间的虚拟现实模型

通过这些解决方案，WALL-OSS 成功地弥合了语言、视觉和行动之间的差距，为从 VLMs 到具身基础模型的转换提供了一条可靠且可扩展的路径。论文标题：Igniting VLMs toward the Embodied Space。

2025-09-14 22:19:14 618

原创 VScode 自动保存代码多标签页打开设置

本文介绍了VS Code的两个实用设置：1) 自动保存功能，展示如何开启该选项；2) 多个标签页打开方式，通过设置workbench.editor.enablePreview参数来实现。文章配有相关配置界面的截图，帮助用户直观了解设置位置和效果。这两个设置能提升开发效率，避免内容丢失并优化多文件浏览体验。

2025-08-19 23:00:44 317

原创 UiVLA解读

UniVLA通过学习任务中心化的潜在动作，为机器人在不同环境和形态中的通用策略学习提供了一种新的解决方案。它不仅在多个基准测试中取得了优异的性能，还展示了强大的泛化能力和数据效率，为未来通用机器人策略的发展奠定了基础。

2025-07-04 23:02:16 989

原创 Word工具栏出现两个MathType

word工具栏出现两个MathType

2023-05-07 21:00:57 3442 4

原创 ViewPager+Fragment的基本使用

ViewPager+FragmentviewPager简介Android 3.0后引入的一个UI控件——ViewPager(视图滑动切换工具)，实在想不到如何来称呼这个控件，他的大概功能：通过手势滑动可以完成View的切换，一般是用来做APP 的引导页或者实现图片轮播。ViewPager就是一个简单的页面切换组件，我们可以往里面填充多个View，然后我们可以左右滑动，从而切换不同的View。FragmentFragment是Android3.0后引入的一个新的API，他出现的初衷是为了适应大屏幕

2022-05-12 21:44:10 5674 3

原创 matplotlib 柱状图

matplotlib 实现不同颜色柱状图

2022-03-17 20:23:37 172

原创 Pytorch利用GRU、LSTM实现中文情感分类

Pytorch利用GRU、LSTM实现中文情感分类

2022-03-17 20:20:02 2490 5

原创阿里云云数据库RDS快速使用教程

第一步：在阿里云官网买下云数据库。注意：最好选低版本，或者和你自己版本相匹配的，地域选离你近的。第二步：进入阿里云控制台。第三步：点击实例名称进入实例基本信息。进入这里创建一个高权限账户。第四步：点击登录数据库。第五步：进入工作台点击新增实例。实例ID就是实例列表里的，数据库账户为上面创建的。连接成功后登录点击登录即可。登录成功点击左侧数据库管理进行创建数据库等操作。第六步：导入数据到数据库中。进入数据导入，选择数据库和添加sql文件就能导入数据了。第七步：本地连接数据库

2021-06-30 20:19:33 8580

原创 C语言实现表达式求值

主要代码：#include<stdio.h>#include <stdlib.h>#define ERROR 0 //函数结果状态代码 #define OK 1#define FALSE 0 //函数结果状态代码 #define TRUE 1typedef char ElemType;typedef char SElemType; //栈中的数据元素为char类型 #include "stack.h"#i

2021-01-23 15:37:44 1351

qq_45622118的博客