告别繁琐操作!UI-TARS自动化GUI交互工具从零开始使用指南
【免费下载链接】UI-TARS 项目地址: https://gitcode.com/GitHub_Trending/ui/UI-TARS
你是否还在为重复的图形界面操作感到烦躁?是否希望有一个智能助手能帮你自动完成电脑上的各种任务?UI-TARS作为一款强大的开源多模态智能体(Smart Agent),能够理解屏幕内容并自动执行点击、输入、拖拽等操作,让你的电脑操作效率提升10倍。本文将带你一步步掌握这个神奇工具的使用方法,无需编程基础也能轻松上手。
读完本文后,你将能够:
- 了解UI-TARS的核心功能和优势
- 完成模型的部署和基本配置
- 编写简单的自动化脚本实现GUI操作
- 掌握坐标处理和动作解析的技巧
- 解决常见的使用问题
UI-TARS简介:让电脑自己完成任务的智能助手
UI-TARS是一个基于先进视觉语言模型构建的开源多模态智能体(Agent),它能够像人类一样"看懂"屏幕内容,并执行各种GUI操作。无论是桌面软件、网页浏览器还是手机应用,UI-TARS都能轻松应对,实现自动化交互。
核心功能与优势
UI-TARS-1.5作为最新版本,相比其他自动化工具具有以下显著优势:
- 跨平台支持:完美支持Windows、Linux和macOS系统
- 多模态理解:能够同时处理图像和文本信息
- 智能决策:通过强化学习实现复杂任务的推理和规划
- 高精度定位:精确识别界面元素并执行操作
- 开源免费:完全开源,可自由使用和二次开发
性能表现
根据官方测试数据,UI-TARS在多个基准测试中表现优异:
| 任务类型 | 基准测试 | UI-TARS-1.5 | 其他主流工具 |
|---|---|---|---|
| 电脑操作 | OSworld (100步) | 42.5 | 38.1 |
| 浏览器使用 | Online-Mind2web | 75.8 | 71 |
| 手机操作 | Android World | 64.2 | 59.5 |
| 游戏能力 | 2048 | 100% | 31.04% |
环境准备:开始使用前的准备工作
在开始使用UI-TARS之前,我们需要准备一些必要的环境和工具。
硬件要求
UI-TARS对硬件有一定要求,推荐配置如下:
- CPU: 4核以上
- 内存: 16GB以上
- 显卡: NVIDIA GPU (推荐L40S或A100,至少48GB显存)
- 硬盘: 至少20GB空闲空间
软件依赖
- Python 3.8及以上版本
- Git
- pip或uv包管理工具
- 图形界面环境
快速上手:10分钟完成安装与部署
获取项目代码
首先,我们需要从代码仓库获取UI-TARS的源代码。打开终端,执行以下命令:
git clone https://gitcode.com/GitHub_Trending/ui/UI-TARS
cd UI-TARS
安装依赖包
进入项目目录后,使用pip或uv安装所需依赖:
# 使用pip安装
pip install ui-tars
# 或使用uv安装(推荐,速度更快)
uv pip install ui-tars
模型部署选项
UI-TARS提供了两种部署方式,你可以根据自己的需求选择:
1. 本地部署(适合开发和测试)
本地部署适合在个人电脑上进行开发和测试,执行以下命令启动本地服务:
cd codes
python -m ui_tars.server
2. Hugging Face云端部署(适合生产环境)
对于需要稳定运行的场景,推荐使用Hugging Face的Inference Endpoints进行部署:
- 访问Hugging Face网站,搜索"UI-TARS 1.5 7B"模型
- 点击"部署"按钮,选择合适的硬件配置(推荐GPU L40S 1GPU 48G)
- 配置环境变量:
CUDA_GRAPHS=0和PAYLOAD_LIMIT=8000000 - 点击"创建端点"完成部署
详细部署步骤可参考官方文档:部署指南
核心功能使用教程
认识UI-TARS的三种工作模式
UI-TARS提供了三种不同的提示模板,以适应不同的使用场景:
电脑端模式(COMPUTER_USE)
适用于Windows、Linux或macOS等桌面环境,支持鼠标点击、键盘输入、拖拽等常见操作。这是最常用的模式,适合大多数桌面应用和网页操作。
相关代码实现:prompt.py
手机端模式(MOBILE_USE)
专为移动设备或安卓模拟器设计,包含长按、打开应用、返回等移动设备特有的操作。
基础定位模式(GROUNDING)
轻量级模式,仅输出动作指令而不包含推理过程,适合评估模型的定位能力或用于模型训练。
第一个自动化脚本:自动打开浏览器并搜索
下面我们来编写一个简单的自动化脚本,实现打开浏览器并搜索"UI-TARS使用教程"的功能。
from ui_tars.action_parser import parse_action_to_structure_output, parsing_response_to_pyautogui_code
# 定义模型输出的动作指令
response = """Thought: 我需要打开浏览器并搜索内容
Action: click(start_box='(100,200)')
Action: type(content='UI-TARS使用教程')
Action: hotkey(key='enter')"""
# 设置原始图像分辨率
original_image_width, original_image_height = 1920, 1080
# 解析动作指令
parsed_dict = parse_action_to_structure_output(
response,
factor=1000,
origin_resized_height=original_image_height,
origin_resized_width=original_image_width,
model_type="qwen25vl"
)
# 生成PyAutoGUI代码
pyautogui_code = parsing_response_to_pyautogui_code(
parsed_dict,
image_height=original_image_height,
image_width=original_image_width
)
print(pyautogui_code)
运行这段代码后,会生成可直接执行的PyAutoGUI脚本,实现自动化操作。
坐标处理详解:让UI-TARS精准点击
UI-TARS使用坐标系统来定位屏幕上的元素,准确理解坐标处理对于实现精确操作至关重要。
坐标处理流程
- 模型输出坐标:模型返回相对于调整后图像的坐标
- 坐标转换:将模型输出的坐标转换为原始屏幕坐标
- 可视化验证:通过可视化工具确认坐标位置是否正确
下面是坐标处理的代码示例:
# 模型输出坐标
model_output_width = 197
model_output_height = 525
# 打开原始图像
img = Image.open('./data/coordinate_process_image.png')
width, height = img.size
# 计算调整后的尺寸
new_height, new_width = smart_resize(height, width)
# 转换为原始图像坐标
new_coordinate = (int(model_output_width/new_width * width),
int(model_output_height/new_height * height))
处理后的坐标可以通过可视化工具显示:
详细的坐标处理方法可参考官方文档:坐标处理指南
高级应用:游戏自动化与复杂任务处理
UI-TARS不仅能处理常规办公任务,在游戏自动化方面也表现出色。根据官方测试,UI-TARS在多个游戏中达到了100%的完成率,远超其他同类工具。
游戏自动化示例:2048游戏自动玩
下面是使用UI-TARS自动玩2048游戏的代码片段:
def auto_play_2048():
while True:
# 截图并分析游戏状态
game_state = capture_screen()
# 让UI-TARS决定下一步动作
response = ui_tars_model.predict(game_state)
# 解析并执行动作
action = parse_action_to_structure_output(response)
execute_action(action)
# 检查游戏是否结束
if is_game_over(game_state):
break
复杂任务处理技巧
对于多步骤的复杂任务,建议使用以下技巧:
- 任务分解:将复杂任务分解为多个简单子任务
- 状态检查:每步操作后检查界面状态,确保操作成功
- 错误处理:添加异常处理机制,应对意外情况
- 迭代优化:根据执行结果不断优化动作指令
常见问题与解决方案
坐标不准确怎么办?
如果UI-TARS点击位置不准确,可能是由于屏幕分辨率设置问题。解决方案:
- 确保原始图像分辨率设置正确
- 使用smart_resize函数调整图像尺寸
- 校准屏幕缩放比例
相关代码:action_parser.py中的smart_resize函数
模型不理解某些界面元素?
UI-TARS对不常见的界面元素可能识别不准确,可以:
- 更新到最新版本的UI-TARS模型
- 提供更多上下文信息
- 尝试不同的提示模板
运行速度慢如何解决?
如果UI-TARS执行速度较慢,可尝试:
- 降低图像分辨率
- 使用更高级的GPU
- 减少不必要的思考步骤
- 优化动作指令格式
总结与展望
通过本文的介绍,你已经掌握了UI-TARS的基本使用方法,包括环境搭建、模型部署、简单脚本编写和坐标处理等核心技能。UI-TARS作为一款强大的自动化GUI交互工具,不仅能提高日常办公效率,还能实现复杂的游戏自动化和应用测试。
未来,UI-TARS将继续优化模型性能,增加更多高级功能,如自然语言理解、多步骤任务规划等。我们期待看到开发者们利用UI-TARS创造出更多有趣的应用场景。
如果你觉得本文对你有帮助,请点赞、收藏并关注项目更新。下一篇文章我们将深入探讨UI-TARS的高级应用技巧,敬请期待!
项目完整代码和文档:UI-TARS代码仓库
【免费下载链接】UI-TARS 项目地址: https://gitcode.com/GitHub_Trending/ui/UI-TARS
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考





