字节跳动UI-TARS-72B开源:重新定义GUI自动化交互范式

字节跳动UI-TARS-72B开源:重新定义GUI自动化交互范式

【免费下载链接】UI-TARS-2B-SFT 【免费下载链接】UI-TARS-2B-SFT 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-2B-SFT

导语

2025年10月,字节跳动正式开源新一代原生GUI智能体模型UI-TARS-72B,以纯视觉驱动方式实现对图形用户界面(GUI)的端到端自动化交互,在12项核心指标中创下8项新纪录,标志着人机交互进入"自然语言操控电脑"的全新时代。

行业现状:GUI自动化的三重困境

当前企业数字化转型中,GUI自动化领域面临效率与适应性的双重挑战。据Gartner 2025年报告显示,43%的自动化项目因跨平台兼容性问题延期,平均每个项目产生27个版本的适配脚本。传统解决方案存在三大痛点:

  • 规则依赖陷阱:商业RPA平台模板训练成本高达项目预算的40%,需针对不同分辨率编写数百行坐标适配代码
  • 模块化瓶颈:现有AI模型在动态界面元素识别准确率不足65%,且视觉理解延迟普遍超过2秒
  • 跨平台鸿沟:企业级应用平均涉及4.3种操作系统,传统工具的"坐标漂移"导致适配成本居高不下

产品亮点:四大技术突破重构能力边界

1. 增强型视觉感知系统

基于500亿token的GUI截图数据集训练,UI-TARS能精准识别10余种界面元素类型,包括动态加载的验证码和游戏场景中的随机道具。在WebSRC基准测试中,7B版本以93.6%的准确率超越GPT-4o的87.7%,尤其在低光照界面和多语言混合场景表现突出。

2. 双系统推理引擎

创新融合系统1(快速响应)与系统2(深度规划)推理机制:简单点击操作平均响应时间0.4秒,复杂的"数据爬取-表格生成-邮件发送"多步骤任务成功率达67.1%。NeonGames工作室案例显示,采用UI-TARS后游戏测试效率提升300%,异常处理人力投入减少80%。

3. 跨平台行动空间

定义23种标准化操作指令,支持Windows/macOS/Android多环境无缝切换。通过smart_resize()算法自动适配4K至720P分辨率,解决传统工具的"坐标漂移"难题。GlobalFinance银行案例显示,其日结报表生成时间从4小时压缩至8分钟,跨系统数据整合准确率达98.3%。

4. 分层记忆机制

短期记忆缓存当前任务上下文(如表单填写状态),长期记忆通过RAG技术存储历史交互模式。独立开发者李明利用此特性构建的个人助理,能记住用户网络打印机配置偏好,同类任务二次执行效率提升75%。

性能解析:多维度基准测试领先

UI-TARS与主流模型性能对比

如上图所示,左侧为UI-TARS在GUI-Odyssey、OSWorld等多个基准测试任务上相对于前代SOTA模型的相对改进数据表格,右侧为雷达图对比UI-TARS-72B、GPT-4o、Claude在VisualWebBench等多场景任务的性能表现。这一对比直观展示了UI-TARS在复杂GUI交互任务中的全面技术优势,特别是在跨平台操作和长流程任务处理方面实现了显著突破。

字节跳动在论文中公布的测试数据显示,UI-TARS-72B在关键指标中表现卓越:

  • 视觉理解能力:VisualWebBench 82.8分(超越GPT-4o 4.3分),SQAshort场景问答88.6分(新基准)
  • 操作执行精度:ScreenSpot v2测试中桌面文本识别91.2分,移动图标交互87.9分
  • 复杂任务处理:Multimodal Mind2Web跨域任务68.9分,OSWorld在线自动化(50步)24.6分

行业影响:人机交互的范式转移

UI-TARS的开源发布正在引发三大行业变革:

1. 开发模式转变

传统RPA开发需要"业务分析师写规则+程序员编脚本"的协作模式,UI-TARS将流程简化为"自然语言描述任务→模型自动生成操作序列"。某电商企业的商品上架流程开发周期从14天缩短至3小时,代码量减少92%。

2. 成本结构优化

企业级自动化方案TCO(总拥有成本)下降65%:省去商业RPA工具年均12万美元的授权费用,减少专职维护人员编制。金融科技公司实测显示,采用UI-TARS后自动化项目ROI从1.2年缩短至0.4年。

3. 应用场景扩展

已在游戏测试、金融报表、智能家居控制等场景验证价值。特别在制造业MES系统操作中,将设备状态巡检耗时从2小时/台降至15分钟/台,识别异常的准确率达91.7%。

未来展望:从工具到智能协作伙伴

UI-TARS团队在技术报告中披露了三个发展方向:多模态输入扩展(集成语音指令与手势识别)、环境记忆系统(构建长期用户行为模型)、轻量化版本(推出13B参数模型适配边缘设备)。随着模型能力的持续进化,GUI界面作为人机交互的"中间层"正逐渐淡化,未来用户或将直接通过自然语言完成复杂系统操作。

UI-TARS学术论文封面

如上图所示,这是发表于2025年初的UI-TARS学术论文标题页,列出了来自字节跳动和清华大学的作者信息。该论文详细阐述了UI-TARS在自动化GUI交互领域的技术突破,为理解这一模型的技术原理提供了权威参考,也标志着中国企业在AI智能体领域的研究已进入国际领先行列。

对于企业而言,现在正是评估这一技术对业务流程改造价值的关键窗口期。开发者可通过GitCode仓库(https://gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-2B-SFT)获取完整代码与文档,开启智能界面交互的新纪元。

【免费下载链接】UI-TARS-2B-SFT 【免费下载链接】UI-TARS-2B-SFT 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-2B-SFT

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值