自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(247)
  • 资源 (5)
  • 收藏
  • 关注

原创 Flowing from Reasoning to Motion: Learning 3D Hand Trajectory Prediction论文学习

EgoMAN 项目的核心突破是“用结构化令牌打通推理与运动”:通过数据集提供 “语义 - 空间 - 运动” 的强关联监督,再通过 4 个轨迹令牌将抽象的视觉 - 语言推理转化为运动生成可直接利用的中间表示,最终实现 “意图明确、轨迹平滑、泛化性强” 的 3D 手部轨迹预测。该方法既解决了传统模型 “语义与运动脱节” 的问题,又克服了 VLA 系统 “运动生成低效” 的缺陷,为 embodied AI 中的人机交互提供了新范式。

2025-12-24 15:47:21 567

原创 AC-DiT: Adaptive Coordination DiffusionTransformer for Mobile Manipulation

这篇论文提出了,是一款面向移动操作机器人的端到端控制框架,核心是解决移动底座与机械臂的协同控制难题,以及不同操作阶段的多模态感知适配问题。下面从。

2025-12-11 20:35:47 745

原创 DPO,PPO,GRPO的学习

PPO在线互动式优化,模型和环境(或 RM)实时交互产生奖励,通过优势估计和裁剪机制,逐步调整策略,适合 “没有现成标注、需要模型主动探索” 的场景(如机器人自主学习、从零训练的对话模型)。DPO离线偏好式优化,直接用现成的 “好坏回答对” 训练,通过对比概率比值让模型对齐偏好,还天然绑定参考模型防止退化,适合 “有大量人工 / AI 标注偏好数据、追求简单稳定” 的场景(如大模型对齐的量产阶段)。我把GRPO的论文发给你。我简单看了一下,感觉和PPO区别不大啊?你的感觉有一定道理。

2025-12-10 16:35:00 469

原创 Direct Preference Optimization:Your Language Model is Secretly a Reward Model论文学习

任务是给论坛帖子写摘要,用 GPT-4 当评委,对比模型生成的摘要和人类写的摘要的 “胜率”。结果:DPO 的胜率能到 61%(PPO 最高才 57%),而且 DPO 对采样温度不敏感(温度从 0 到 1,胜率波动很小),PPO 温度一高就拉胯(胜率跌到和 SFT 差不多)。简单:砍掉 RM 和 RL,训练流程和监督学习一致,不用懂复杂的强化学习理论;稳定:没有 RL 的 “训练崩溃” 问题,超参数只有一个\(\beta\),调参成本极低;高效。

2025-12-10 15:41:01 440

原创 HTTM: Head-wise Temporal Token Merging for Faster VGGT论文学习

关键优势:计算量从 O (N²) 降到 O (N×K)(K 是每个 token 的邻居数,通常 K 固定为几十 / 几百),当 N 很大时,O (N×K)≈O (N),几乎线性增长,速度大幅提升。关键目标:让合并后的 Token 能替代原始 Token 的核心信息,同时减少 Token 总数(比如从 N 减到 M,M<N),让注意力计算量从 O (N²) 降到 O (M²),实现加速。因为vggt里面的token对其他的token都挺关联的,很难说它就和特定的几个token特别关联,其他的就不关联。

2025-11-30 16:55:11 948

原创 Unified Vision-Language-Action Model论文学习

Unified Vision-Language-Action Model,一个结合了世界模型思想的新VLA模型

2025-11-28 15:53:45 159

原创 ManiSkill3论文学习

ManiSkill3 是一个超快、省内存、支持异构场景和视觉输入的开源 GPU 并行化机器人仿真平台,用于训练可泛化的机器人操作策略。

2025-10-28 15:39:21 313

原创 CogVLA: Cognition-AlignedVision-Language-Action Model viaInstruction-Driven Routing & Sparsificati论文

CogVLA通过模拟人类的多模态认知机制,构建了一个高效、语义一致、任务驱动的VLA框架。它在保持高性能的同时显著降低了计算成本,具有良好的实际部署潜力。通过“指令驱动的路由与稀疏化”机制,在视觉-语言-动作之间建立语义一致、计算高效的连接。翻译:如图2所示,CogVLA 采用三阶段渐进式架构,模仿人类的多模态协同方式(视觉、语言、动作协调工作)。LFP-Routing 是一个“指令感知的 token 剪枝器”,它在每一层根据任务相关性打分,只保留最重要的视觉 token,其余丢弃。

2025-10-09 16:07:25 350

原创 VGGT: Visual Geometry Grounded Transformer论文学习

DINO ViT patch tokens + 可学习的 camera token(每帧1个)+ 4 个 register token。(Alternating-Attention):先帧内自注意力,再跨帧全局自注意力,循环 24 次。Tracking Head(CoTracker2):用跟踪特征完成任意点到全部帧的匹配。Dense Head(DPT):输出深度图、点云图、不确定性图、跟踪特征图。Camera Head:输出每张图的 9维相机参数(4旋+3平+2焦距)。

2025-07-16 02:33:49 739

原创 CoT-VLA: Visual Chain-of-Thought Reasoning forVision-Language-Action Models论文学习

本文介绍了一种名为CoT-VLA(Visual Chain-of-Thought Reasoning for Vision-Language-Action Models)的方法,旨在通过引入显式的视觉推理步骤来增强机器人视觉-语言-动作(VLA)模型的性能。该方法通过预测未来的图像帧作为视觉目标(subgoal images),然后生成一系列动作以实现这些目标,从而提高机器人在复杂操作任务中的性能。CoT-VLA在模拟和真实世界的机器人操作任务中均表现出色,超越了现有的VLA模型。

2025-07-06 15:47:44 890

原创 HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model论文学习

但是接下来就不太一样的。这样的话,diffusion和next token两个环节公用一个身体,就是最后的头不一样,因此有了不一样的输出。正好next token predict是有置信度这一说法的(模型是不是很确定下一次要生成的token是这个),我们用置信度来确定最后的结果是看diffusion,还是两个都看。如果置信度高那就两个都看,置信度不高那就只看diffusion——毕竟diffusion没有detokenizer这样的头,没有“从字典当中选一个字”这样的环节,自然也算不出置信度什么的。

2025-07-03 10:52:22 332

原创 Dita: Scaling Diffusion Transformerfor Generalist Vision-Language-Action Policy论文学习

ai总结:这篇论文介绍了一个名为(Diffusion Transformer)的新型通用机器人学习框架,旨在通过大规模跨体现(cross-embodiment)数据集的预训练,实现机器人在复杂多任务、长时序(long-horizon)场景中的快速适应能力。

2025-07-01 18:27:05 615

原创 π0: A Vision-Language-Action Flow Model forGeneral Robot Control论文学习

这篇也是讲vla,但是讨论的话题很特别:它们使用的是特别广泛的数据集来预训练,其中的机器人形态,运行方式多种多样,不像之前的都是固定一种机器人。

2025-06-29 16:07:01 200

原创 Fine-Tuning Vision-Language-Action Models:Optimizing Speed and Success论文学习

一篇研究如何高效微调的文章,因为vla模型在运用到不一样设定的机器人身上的时候都需要微调,任务不一样也可能需要。

2025-06-28 16:49:54 967

原创 OpenVLA: An Open-Source Vision-Language-Action Model论文学习

VLA训练的时候要多几个epoch,不能像LLM一样1,2个就完事了。VLA意为:vision language action 模型,其中的v可以使用常规多模态模型的vision部分。使用的现成的数据集,但是做了修改。只要人为手动的数据集,使用的机器什么的都要统一,各种任务类型也要平均。Motion(移动):同样的东西和背景看起来差不多,不过东西的位置不太一样。优点基本上就是:模型小,开源,直接用的vlm微调还做了量化。视觉类任务就是:要干的事情是一样的,就是画面看起来不一样。

2025-06-27 10:37:46 319

原创 EdgeWisePersona: A Dataset for On-Device UserProfiling from Natural Language Interactions论文审查

一篇做数据集的工作,用于小模型(可以在边缘设备上运行的那种)。这种模型是用在家里的各种设备上的,可以检测用户的日常行为,最终根据用户刚刚做了些什么(当然会考虑上下文的)来推测用户接下来要干什么,推测其喜好。我去,这个是要干什么啊,感觉有点变态。

2025-06-06 16:29:25 103

原创 EXACT: TEACHING AI AGENTS TO EXPLORE WITHREFLECTIVE-MCTS AND EXPLORATORY LEARNING论文学习

推理的时候,给定一个模型做任务,以mcts的方式进行探索,每次输出一个动作就要输出自己的预期。在获得完整的轨迹之后(从树上拿下来的),比较预期的状态与实际状态的区别(让vlm自己总结区别),看看动作是否符合预期,以此来判断是哪个动作有问题。我们也是从树中整理出一条轨迹,但这个轨迹更接近agent在mcts探索中的轨迹,换句话说就是有失败-->返回的过程(哪个动作在犯罪之前总结过了)。这样我们得到的轨迹就包括了探索-->察觉不对-->返回-->继续探索的流程,让agent学会思考要不要返回。

2025-05-19 11:09:42 232

原创 EcoAgent: An Efficient Edge-Cloud Collaborative Multi-AgentFramework for Mobile Automation论文审查

AndroidWorld上的实验结果表明,EcoAgent有效地处理了复杂的移动任务,同时减少了MLLM的令牌消耗,从而降低了运营成本,并促进了边缘设备上的实际部署。可以看到,在plan agent提出了一个计划+每步计划的预期结果之后,假如操作结果一直符合预期的话,整个流程接下来都不需要云端模型了。只有出现了不符合预期的情况的时候,才会需要云端模型,把当前情况和他说一下,再让他修改一下计划。api太贵,小模型太差。它强调的是“网络边缘”,比如说手机,摄像头,智能冰箱,网络基站之类的,因此范围比较广。

2025-05-18 16:47:46 367

原创 Explorer: Scaling Exploration-driven Web Trajectory Synthesis forMultimodal Web Agents论文学习

这篇文章轨迹数量也是10万这个级别的,一条轨迹成本是0.28美元.它这个探索过程和任务描述生成很有意思,二者是同步进行的。看一下主页,生成一个第一步任务(这个任务也是high level的,只是不具体),然后执行第一部动作,来到第二个界面,进一步具体化该动作。这个流程就象是人在随便逛这个网站,看到一个想要的东西,点进去,然后逐渐确定自己需求的过程一样。麻了,看下别人的论文,瞬间发现自己啥也不是。其它的就没什么好说的了。最后也有一个verification,这个判断比较简单,不如上一篇trek的方法。

2025-03-27 17:50:22 271

原创 AG E N TTR E K: AGENT TRAJECTORY SYNTHESISVIA GUIDING REPLAY WITH WEB TUTORIALS论文学习

我感觉我的pipline里面最novelty的就是后处理的部分,其它的部分和他们相比感觉没什么。还有,基本上所有用到了模型的环节,作者都做了模型和人为评估的误差分析,非常严谨。本篇工作也是自动化生成轨迹数据的工作,但很有意思的是其采用的是使用爬虫爬取网络上的各种教程,然后把这些教程转化为具有逐步指令的结构化任务。总结一下,本文最大的特色在于获取任务描述的方式。充分利用了网上的教程,既让agent的探索更顺畅,又可以让最后的数据集更加充分。包括了逐步分析,甚至包括了适用情况下的最早的故障点。

2025-03-27 16:43:13 330

原创 OS-Genesis: Automating GUI Agent Trajectory Construction viaReverse Task Synthesis论文学习

自动化产生轨迹数据的方法!可恶啊,我还以为我的工作可以成为第一个自动化产生轨迹的方法呢。不过它的思路和我的不一样,它用的是我最开始的时候尝试过的思路,但是因为轨迹数据质量太差被我放弃了。这个论文貌似是设计了一个奖励函数,可以判定一个轨迹数据是否高质量,从而筛选出合适的轨迹。•通过从任务驱动的方法转向交互驱动的GUI代理数据构建,我们引入了反向任务合成来提高轨迹质量和多样性。•我们提出了一种新的管道,OS Genesis,能够有效地合成高质量的轨迹数据。无需人工监督,OS Genesis支持跨环境

2025-01-06 11:09:03 596

原创 WEBRL: TRAINING LLM WEB AGENTS VIA SELFEVOLVING ONLINE CURRICULUM REINFORCEMENTLEARNING论文学习

这段文字主要讲述了如何使用广义优势估计(GAE)来估计优势函数,并且提出了如何训练价值网络的技巧(通过交叉熵损失)。此外,作者还介绍了如何通过经验重放缓冲区和演员信心过滤来防止模型遗忘过去的经验,同时避免过于熟悉或过于困难的数据影响训练。这里解释一下,优势函数是一个动作-价值(Q函数)与状态-价值(V函数)之间的差异。具体地,优势函数通过对比某个动作的实际回报与期望回报,帮助代理判断在该状态下哪个动作更值得采取。注意,在我们的这种问题中,我们是没有中间奖励的!因此优势函数就要充当中间奖励的角色。

2024-12-06 22:54:30 1190

原创 ANDROIDWORLD: A Dynamic Benchmarking Environment for Autonomous Agents论文学习

与现有的测试环境不同(miniwob++[48]是一个明显的例外),ANDROIDWORLD中的每个任务都是使用随机生成的参数动态实例化的,具有数百万个独特任务目标和条件的代理。“我们改编了一个流行的桌面web代理来在Android上工作,我们发现它在移动设备上的效率较低,这表明未来的研究需要实现通用的,跨平台的代理。这种训练环境的优点就是动态,与静态的数据集(比如说我自己的工作)不同,因此可以在更大更真实的任务上训练。可以看到这篇工作的核心就是“评估”,如何去评估代理在实际工作中的表现。

2024-11-10 20:30:12 1764

原创 高级数据库 项目流程记录

md文件中的问题回答记录在文件里面了,不在笔记里。

2024-11-07 22:49:58 906

原创 Enabling Cost-Effective UI Automation Testing withRetrieval-Based LLMs: A Case Study in WeChat论文学习

论文提出了CAT,一种使用LLM引导的UI空间探索。“给定任务描述,CAT采用检索增强生成(RAG)来获取工业应用程序使用的示例作为少数镜头学习上下文,帮助LLM生成特定的动作序列。然后,CAT采用机器学习技术,LLM作为补充优化器,将目标元素映射到UI屏幕上。我们对微信测试数据集的评估证明了CAT的性能和成本效益,以0.34美元的成本实现了90%的UI自动化,超过了最先进的水平。我们还将我们的方法集成到现实世界的微信测试平台中,证明了它在检测141个错误和增强开发人员测试过程方面的有用性。

2024-10-30 23:24:56 1073

原创 AndroidEnv: A Reinforcement LearningPlatform for Android 论文学习

在发布时,这包括大约30个不同应用程序中的100多个任务,从目标明确的基本任务到需要长期推理的更复杂的任务。所选内容包括时间敏感任务(如接球)、基于物理的环境(如向量球)、谜题(如经典2048)、纸牌游戏(如简单石)、空间推理(如完美)、UI导航(如时钟定时器)、策略游戏(如机器人鱼)等。•事件重置时触发的事件:例如,启动给定的应用程序、清除缓存或将屏幕固定到单个应用程序(从而将代理的交互限制在该应用程序上)。作者提出了一个用于强化学习的,基于安卓系统的开源环境,里面啥任务都有。如何定义这个任务呢?

2024-10-29 20:37:09 470

原创 组合优化与凸优化 学习笔记总结

可以在b站上查中科大的老师的课。单纯形法求解线性问题会考。

2024-10-24 09:42:58 266

原创 高级算法设计与分析 学习笔记15 NP完全问题

问题复杂性概述 我们在面对一个问题时,首先需要考虑两个问题:计算复杂性衡量的是一个算法在解决问题时所需的资源(如时间或空间)。如果一个问题可以用多项式时间(polynomial time)解决,我们通常认为它是“简单”的,也就是说,计算机能够在合理的时间内解决该问题。P 问题与 NP 问题P = NP 问题 目前还没有确定 P 问题和 NP 问题是否是同一类问题(即 P 是否等于 NP)。如果能证明 P = NP,那么很多目前被认为非常复杂的问题都可以在多项式时间内解决,这将带来巨大的科技变革,比如在运筹优

2024-10-22 17:45:57 1208

原创 Agent Q: Advanced Reasoning and Learningfor Autonomous AI Agents论文学习(与DPO强化学习笔记)

相应的,我们也就可以得到策略函数。可以看到强化学习和深度学习区别还是很大的,没有那些熟悉的东西,成堆的参数,有的只是Q,也就是记录着价值的这个函数,这个函数其实就是决定了系统下一步采用某个动作的概率。上下是两种不同的方法,上面这种使用了实际上最后的价值与预期的估计的差值来计算,而下面这种方法使用的是实际上t步的价值与接下来的估计减去之前估计的价值来得到误差,用来更新新的预期估计。在修改Q的时候,很显然离最后那一步近的与结果关系大,离得远的关系小,那么Q的修改幅度也是一样,离的近的修改多,离得远的修改少。

2024-10-20 23:00:01 863

原创 高级算法设计与分析 学习笔记14 FFT

这里的 n 是一个正整数,表示单位根的阶数。换句话说,单位根是一个复数,当它被提升到 n 次幂时,结果为1。单位根在复平面上的单位圆上均匀分布。可以看到两个n°的多项式,我们直接乘,每种组合都要试一遍,就会要是n^2遍。我们直接乘,时间复杂度是n^2。使用FFT则可以变成nlgn。记录下n个点,想要原版形式的话就解矩阵方程吧。不过这种表示法太奇怪了,能不能来经典形式的?首先多项式可以通过这种方法来表示。本章我们研究多项式乘法。

2024-10-17 17:45:57 382

原创 高级算法设计与分析 学习笔记13 线性规划

原来的x2正负无所谓,但我希望每个x都是有限制的,所以把它改成x2'-x2''改造之后就成了这样,全都是不等式约束,每个变量都有约束,目标函数要求最大化。等式变成两个不等式。两个都要满足,相当于是等式(奇怪的仪式感)先改成统一最大化(凸优化那边怎么是统一最小化?注意是线性规划不是动态规划哦。好家伙,这不是凸优化吗?

2024-10-15 17:46:16 460

原创 MobileViews: A Large-Scale Mobile GUI Dataset论文学习

为了提高应用程序遍历效率,我们引入了MobileViews Crawler,它使用固定的交互规则来处理繁琐的应用程序操作,LLM增强了其处理复杂UI状态的能力。当出现人为预定义的触发器时,例如复杂的登录屏幕和固定交互规则无法处理的屏幕空闲,LLM用于理解当前的UI状态并执行绕过这些屏幕的操作。在这一部分引入了LLM。这篇工作提出的数据集一大特点就是图像重复度低,因为每个app的图像不多,但是参考了很多个不同的app。文章反复强调自己的数据集包括了UI结构信息(就是上图中的VH)而知名数据集AITW没有。

2024-10-13 23:02:41 941

原创 高级算法设计与分析 学习笔记12 贪心算法

当然开始之前先要把所有时间按照结束时间排个序(nlgn就行)这样比较方便。直觉上讲,每次都选最先结束的可以留下最多的资源。现在,我们要把这个解决办法转换成一个贪心算法。s代表开始时间,f代表结束时间。可以看到这是一个动态规划的算法。那么贪心算法究竟是什么结构呢?

2024-10-10 17:42:55 562

原创 高级算法设计与分析 学习笔记11 动态规划

可以看到,动态规划效率高的秘诀就在于有记忆,不用做重复的事。

2024-10-08 17:44:34 448

原创 MobileVLM: A Vision-Language Model for Better Intra- and Inter-UIUnderstanding论文学习

为了解决这些问题,如图1所示,我们提出了两个额外的移动预训练阶段和四个特定的移动任务,以增强UI内部和UI之间的理解。而且这些任务普遍关注单图,忽略多图之间的联系。而且很多UI数据集都是用链状的结构组织数据的,(比如说AITW,一条一条序列相互独立)真正用来表示UI之间关系的图的应该是网状的。模型训练的预训练则分为两个阶段:单UI与多UI,单UI就是理解单张图里面的UI,分辨有哪些,在哪里,能否点击,滑动等。•我们定义了两个额外的预训练阶段和四个基于UI的预训练任务,涵盖了UI内部和UI之间的理解。

2024-10-06 02:03:17 576

原创 高级算法设计与分析 学习笔记10 平摊分析

可以轻易证明把n个数字放进去的时间复杂度是O(n),n + n/2 + n/4……也就2n,插入数字本身也就是n,加起来最多不超过3n.这种复杂度究竟是怎么算的?毕竟每次插入复杂度不一样,怎么算平均呢?问题:这些什么存款,势能的,一次多少究竟是怎么算出来的?答曰:先用最开始的方法算出来总体的复杂度,然后凑。使用势能法分析之前的动态表,怎么说?一溢出就另起一个两倍大小的表。把存款当成当前集合的势能。首尾相连很多都被抵掉了。势能和存款就是一个意思。

2024-09-29 17:44:02 416

原创 组合优化与凸优化 学习笔记5 对偶拉格朗日函数

记得之前凸函数的时候的结论吗?一大堆函数,每一段都取最大的,最后会得到一个凸函数。同理,每一段都取最小的,得到的是一个凹函数。就这样,我们强行把问题变成了一个凹函数,就算原本的f(x)既不凸也不凹。拉格朗日函数是原本问题的下界,现在我们要求这个函数最大是多少,这样就可以尽量靠近原始函数了。可以看到之前的对偶函数是最优值的下界,毕竟加了一大堆0或者比0还小的东西。其实就是和高数里面求给定条件的极大极小值用的方法,一模一样。有的时候约束条件有点难搞,我们可以把它放到目标函数里面。但显然这个条件不总是成立。

2024-09-29 09:45:02 524 1

原创 高级算法设计与分析 学习笔记9 跳表

这条“快速路”最好是几个节点呢?负无穷用来解决一些表头之类的问题。1/2概率往上差一个快捷传送点。假如我们弄好多层跳表呢?

2024-09-26 17:45:53 341

原创 矩阵分析 学习笔记4 内积与Gram矩阵

由于对称,第二变元线性那第一变元也线性了。

2024-09-25 11:44:59 1126 1

原创 SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents论文学习

Web UI具有跨网站的各种布局和设计风格,是训练LVLM在不同GUI上下文中的一般识别和基础能力的理想选择。至于项目中构建的数据集ScreenSpot,作者是网络爬取了web数据,从开源数据集中充足了一部分手机的轨迹数据,还照搬了一部分开源数据(LLAVA的常规数据)。我们的主要贡献如下:•我们开发了一个统一的可视化GUI代理SeeClick,它仅依靠界面截图在不同的GUI平台上执行点击和打字操作。模型训练方面,文章的基础模型是Qwen-VL,在上面的数据集训练了1个epoch,用了LoRA。

2024-09-24 21:27:37 692 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除