Awesome Mobile Agent：21个可以自动执行任务的移动端多模态Agent

最新推荐文章于 2025-09-21 08:46:13 发布

原创

最新推荐文章于 2025-09-21 08:46:13 发布 · 1.3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

1. 背景

移动端智能体（Mobile Agent）是指在移动端（手机）上能够实现在多种应用中自动化执行任务，且几乎无需人工介入的AI应用。这些智能体专为在动态环境中进行感知、规划和执行而设计，非常适合需要即时适应性的移动平台。

随着时间的推移，移动端智能体的研究有了显著的进步，从简单的基于规则的系统发展到能够处理多模态和动态环境中复杂任务的更复杂的模型。

在早期，移动端智能体主要集中于通过轻量级的、基于规则的系统来执行预设的工作流程，这些系统专为移动设备上的特定任务量身定制。这些早期的智能体常常受限于硬件的计算和内存限制，严重依赖于基本的交互模式和静态流程。然而，移动技术的迅猛发展为更高级的智能体架构铺平了道路，使其能够执行更复杂的任务。

移动智能体研究的最新进展可以分为两大类：

基于提示的方法和基于训练的方法。

• 基于提示工程的方法：利用大型语言模型（LLMs），如ChatGPT 和GPT-4，通过指令提示和思维链（CoT）推理来处理复杂任务。如OmniAct 和AppAgent，已经展示了基于提示的系统在交互式移动环境中的潜力，尽管可扩展性和鲁棒性仍然有待提高。
• 基于训练的方法：为移动应用微调多模态模型，如LLaVA和Llama。这些模型能够处理丰富的多模态数据，通过整合视觉和文本输入，提高执行界面导航和任务执行等任务的能力。