
文章核心总结与创新点
一、主要内容
本文围绕实用GUI自动化代理的构建,提出了“数据生成-模型训练-部署协议-基准测试”的全流程解决方案,核心内容包括:
- 数据与训练 pipeline:设计基于校准步骤奖励系统(CSRS)的自进化训练流程,通过轨迹级校准将模型生成的交互轨迹转化为高质量训练数据,在保证>90%标注准确率的同时,将成本降低10-100倍;采用“中期训练-冷启动微调-可验证奖励强化学习(RLVR)”三阶段训练范式,兼顾通用多模态能力与GUI领域专精能力。
- Step-GUI模型系列:基于Qwen3-VL骨干网络,推出4B/8B参数的GUI专用模型,在多个基准测试中实现SOTA性能(8B模型:AndroidWorld 80.2%、OSWorld 48.5%、ScreenShot-Pro 62.6%、AndroidDaily静态任务89.91%/端到端任务52.50%),其中4B模型可在消费级硬件本地部署。
- GUI-MCP协议:提出首个针对GUI自动化的模型上下文协议,采用分层架构(底层原子操作+高层任务委托),实现跨设备(Android/iOS/Ubuntu等)标准化交互;支持高隐私模式,敏感数据本地处理,仅向云端传输语义摘要,平衡执行效率与隐私保护。

订阅专栏 解锁全文
1142

被折叠的 条评论
为什么被折叠?



