智东西9月8日报道,字节跳动旗下人工智能研究实验室Seed于9月4日正式发布新一代原生GUI智能体UI-TARS-2。该智能体具备自主操控计算机与移动设备完成复杂任务的能力,涵盖信息检索、网页开发、工具创建、游戏竞技等多元场景。相关研究论文已于9月2日在arXiv预印本平台上线,实证数据显示其在多项GUI基准测试中超越OpenAI与Claude同类产品,15款游戏场景平均表现达到人类水平的60%,标志着通用人工智能在图形交互领域实现重大突破。
【免费下载链接】UI-TARS-1.5-7B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-1.5-7B
在官方发布的技术演示中,UI-TARS-2展现了处理复合型指令的卓越能力。面对"搜索字节跳动Seed 1.6模型相关新闻,并使用现代风格设计部署专题网页"的复杂需求,该智能体能够自主完成任务拆解、信息检索、网页开发与部署验证的全流程操作。系统首先通过LinkReader工具获取目标模型的核心特性,随后自动创建项目目录、选择Tailwind CSS框架进行界面设计、规划响应式布局,并在部署完成后执行功能自检,整个过程无需人工干预。
研究团队在技术报告中指出,针对当前GUI智能体面临的数据扩展性不足、多轮强化学习不稳定、纯图形界面操作局限及环境一致性差等行业痛点,开发了包含四大核心模块的系统化训练方案:可扩展数据生成飞轮、稳定多轮强化学习框架、融合文件系统与终端的混合交互环境,以及支持大规模部署的统一沙盒平台。论文与演示视频已分别通过arXiv平台和官方网站(seed-tars.com/showcase/ui-tars-2/)向公众开放。
跨场景任务处理能力全面升级,教育游戏领域展现实用价值
字节跳动公开的多组演示案例显示,UI-TARS-2在工具创建、数据处理、教育辅助等场景中表现出高度的任务自主性与执行精度。这些案例不仅验证了模型的技术突破,更凸显了其在实际应用中的转化潜力。
在重量单位转换工具开发任务中,系统面对包含多步推理的复杂指令展现出清晰的逻辑拆解能力。当接收到"编写重量单位转换函数,计算玛蒂尔德·塞尼耶凯撒奖提名次数加1的数值从千克到克的转换结果"这一指令时,UI-TARS-2首先通过多源交叉验证确认法国女演员的提名次数为3次,进而生成Python转换函数并计算得出3000克的正确结果。整个过程中,智能体自主完成了知识检索、逻辑计算与代码实现的完整链条。
Hugging Face数据集字符统计任务则展现了系统处理真实世界数据的能力。针对"搜索并下载Hugging Face热门数据集榜首,计算全库字符总数"的需求,UI-TARS-2自动启动谷歌浏览器,通过平台API接口获取实时排名数据,选择合适的下载工具链,最终完成对超大文本数据集的字符统计,展示了从网络交互到数据处理的端到端能力。
教育场景的应用演示尤为引人注目。一位高中音乐教师提出的"收集音乐理论基础知识点,设计包含音阶演示动画的教学网页"需求,被系统高效转化为包含音乐术语解释、大调音阶可视化、频率波形模拟等模块的交互式教学工具。这种将专业教学需求快速转化为多媒体教学资源的能力,预示着AI在教育资源开发领域的广阔应用前景。此外,在数字比较、代码调试等基础任务中,UI-TARS-2均保持了100%的执行准确率。
基准测试成绩全面领先,游戏智能逼近人类认知水平
第三方评测数据显示,UI-TARS-2在主流GUI智能体评测基准中实现全面突破,多项核心指标超越当前行业标杆产品,尤其在移动设备交互与游戏场景中展现出显著优势。这种性能跃升不仅体现为测试分数的提升,更反映在智能体处理复杂环境、长时程任务和多模态信息的综合能力上。
在网页交互领域,UI-TARS-2在Online-Mind2Web评测集上取得88.2分的成绩,该数据集包含真实网站环境中的开放式任务,要求智能体理解复杂网页结构并执行精准操作。在桌面环境综合评测平台OSWorld上,系统获得47.5分,较上一代产品提升32%;Windows专用评测基准WindowsAgentArena得分50.6分,领先Claude Computer Use 12.3分;移动设备评测集AndroidWorld中更是以73.3分的成绩刷新行业纪录,展现出跨设备交互的出色适配能力。
游戏智能的突破性进展成为本次发布的最大亮点。在包含15款不同类型游戏的综合评测中,UI-TARS-2获得59.8分的归一化得分,相当于人类玩家平均水平的60%。这一成绩分别是OpenAI CUA智能体的2.4倍、Claude Computer Use的2.8倍,尤其在需要长时程策略规划的开源游戏基准LMGame-Bench中表现突出,证明其具备稳定的复杂环境推理能力。
通过GUI-SDK实现的系统级功能扩展,使智能体突破了传统图形界面操作的局限。在长时程信息检索任务中,UI-TARS-2能够自主调用终端工具链,在软件工程专用评测集Terminal Bench上获得45.3分,展现出从图形交互到命令行操作的无缝衔接能力。研究人员表示,这种能力迁移验证了所提出训练方法的普适性,为构建跨模态通用智能体奠定了基础。
四大技术支柱构建系统方法论,应对行业发展挑战
传统GUI智能体多采用模块化设计思路,将感知、规划、记忆、执行等功能组件分离开发,这种架构严重依赖专家规则与任务特定设计,导致系统鲁棒性差、扩展成本高。字节跳动Seed团队创新性地提出基于四大技术支柱的系统化解决方案,从根本上重构了GUI智能体的开发范式。
数据飞轮系统有效解决了训练数据稀缺与质量参差的行业痛点。该机制通过持续预训练、监督微调、拒绝采样与多轮强化学习的协同运作,构建起模型与训练数据的共生进化体系。系统能够自动生成多样化的交互轨迹,在自我迭代中不断优化数据质量与覆盖范围,形成"数据积累-模型提升-数据生成能力增强"的正向循环。这种自驱动的数据生成模式,使UI-TARS-2在无人工标注的情况下仍能保持能力持续进化。
针对多轮强化学习在长时程任务中的不稳定性问题,研究团队开发了包含状态异步展开机制的训练框架。该框架通过保留交互上下文的环境状态管理,结合流式更新技术避免长尾轨迹导致的训练瓶颈,显著提升了模型在复杂任务中的策略一致性。特别设计的增强型近端策略优化算法,融合奖励塑形、自适应优势估计与值函数预训练技术,使智能体在数百步交互序列中仍能保持目标导向性。
混合交互环境的构建打破了纯GUI操作的功能边界。通过集成文件系统访问权限与终端命令执行能力,UI-TARS-2实现了图形界面与系统级操作的深度融合。这种架构扩展使智能体能够处理需要文件读写、进程管理、网络配置等复杂任务,大幅提升了在软件开发、数据科学等专业领域的实用价值。环境适配层的设计确保了不同交互模态间的无缝切换,为用户提供统一的操作体验。
统一沙盒平台为大规模部署与测试提供了基础设施保障。该平台整合云虚拟机、浏览器沙箱、移动设备模拟器等多元环境,通过标准化API接口实现测试流程自动化。系统支持每秒数千次的交互轨迹生成与评估,确保训练过程的可重复性与环境稳定性。这种大规模并行化测试能力,使研究团队能够在保持评估一致性的同时,显著缩短模型迭代周期。
跨模态能力融合开启人机协作新纪元,通用智能体发展路径明晰
UI-TARS-2通过多技术路径融合实现了跨领域能力的均衡发展。研究团队采用持续预训练、监督微调、拒绝采样与多轮强化学习相结合的迭代训练流程,使模型在单一架构下同时掌握GUI交互、浏览器操作、移动设备控制与游戏竞技等多元技能。实验数据表明,尽管针对特定场景优化的模型可能在单项测试中取得更高分数,但UI-TARS-2展现出的跨场景适应性与能力迁移性,更符合通用人工智能的发展方向。
深入的训练动态分析揭示了多环境训练促进参数共享与能力迁移的内在机制。研究发现,在图形界面、命令行终端、游戏引擎等多样化环境中训练的模型,能够自发形成通用的问题解决策略,这些策略通过参数共享机制在不同任务间迁移。这种迁移学习能力使UI-TARS-2不仅能完成指令明确的任务,还能创造性地组合已有技能解决新问题,例如在网页开发中自动调用终端工具进行性能优化,体现出初步的认知融合特征。
研究团队表示,UI-TARS-2的研发成果代表了通用计算机使用智能体发展的重要阶段性突破。通过系统化解决数据、训练、环境与部署等关键环节的技术瓶颈,字节跳动为GUI智能体的工业化应用铺平了道路。未来团队将重点推进长时记忆机制优化、多智能体协作系统开发及真实物理世界交互能力建设,持续探索人工智能从工具辅助向自主协作演进的技术路径。随着这些技术的不断成熟,通用智能体有望在创意设计、科学研究、复杂系统管理等领域释放更大价值,推动人机协作进入全新纪元。
【免费下载链接】UI-TARS-1.5-7B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-1.5-7B
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



