从PC到通用,聊聊PC-Agent、Manus、Owl、OpenManus ...

部署运行你感兴趣的模型镜像

观看地址:观看地址:qingkelabs.github/io/talks

与手机相比,PC 场景的复杂性体现在两方面:

  • PC的图形界面包含了更密集多样的可交互元素,以及不同布局的文本;
  • PC常用于生产力场景,涉及更多复杂的App内及跨App工作流。

针对这一问题,来自阿里通义实验室的研究员们提出了面向复杂PC任务的多模态智能体框架 PC-Agent,可以根据用户指令实现对计算机软件(例如Chrome,Word,微信等)的自动控制。其主要包括:

  • 设计主动感知模块实现对屏幕内容的精细感知和操作;

  • 提出层次化多智能体协作结构;

  • 构建了涉及8个常用应用的复杂指令集以更好地评估智能体在复杂任务上的表现。

安装使用

  • 下载代码库
git clone https://github.com/X-PLUG/MobileAgent.git
  • 进入PC-Agent的文件目录下,安装运行PC-Agent的环境依赖
cd MobileAgent/PC-Agent/

# For MacOS
pip install -r requirements.txt
# For Windows
pip install -r requirements_win.txt
  • 运行PC-Agent
python run.py --instruction="Create a new doc on Word, write a brief introduction of Alibaba, and save the document." --api_token='Your GPT-4o API token.'

3月15日上午11点,青稞Talk 第41期,阿里通义实验室高级算法工程师张熙,将直播分享《PC-Agent:面向复杂 PL 任务的多模态智能体框架》。

分享嘉宾

张熙,博士毕业于中科院自动化研究所,目前担任阿里通义实验室高级算法工程师,负责多模态智能体Mobile-Agent等工作。在国际顶级期刊和会议TPAMI/TIP/CVPR/ACM MM/TMM/TCSVT等发表论文,曾获得CCL BEST Demo、China MM BEST Paper、VCIP BEST Student Paper、中科院院长奖等,担任多个顶级会议与期刊Reviewer,并在开源社区Github获得236k star。

主题提纲

PC-Agent:面向复杂 PL 任务的多模态智能体框架

1、PC 场景的复杂性
2、多模态智能体框架 PC-Agent
3、样例展示及应用实践
4、探讨-下:Manus/Owl/OpenManus …

直播时间

3月15日(周六) 11:00 -12:00

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

<think>我们首先需要明确用户的问题。用户提供了一个链接,但链接内容似乎与问题无关,而是指向一个设置页面(https://superflow-akbrnu.manus.space/settings)。在用户的问题中,他要求我作为编程专家回答编程相关的问题,并按照特定格式回答。 然而,用户并没有提出具体的编程问题。因此,我需要引导用户提出具体问题。但是,根据用户的要求,我需要先回答问题,然后提出相关问题。由于没有具体问题,我无法给出具体的代码和解释。 在这种情况下,我可能需要提醒用户提出具体的编程问题。但用户要求的格式是“回答问题-给出解释”,然后提出相关问题。因此,我可以这样处理: 1. 先回答一个通用的编程问题(比如选择一个常见的编程问题),以展示格式。 2. 然后提出相关问题,引导用户提出更具体的问题。 但用户没有指定问题,所以我可以选择解释一个基础概念,比如“Hello World”程序,然后提出相关问题。 或者,我也可以直接提醒用户,但为了遵循格式,我选择先回答一个示例问题。 例如,我选择解释“如何用Python打印Hello World”。 注意:用户要求最后提出相关问题,并且格式严格。 因此,我按照以下步骤: - 回答:用Python打印Hello World - 解释:解释代码 - 然后提出相关问题 但是,用户可能期望我等待他提出具体问题。然而,他并没有提出,所以我认为这是一个示例展示。 不过,用户的第一句话是“我会向你提问各个编程领域的相关问题”,所以可能他接下来会提问。但在这个消息中,他没有提问,只是设定了角色和流程。 因此,我决定先等待用户的具体问题,但为了满足消息格式,我可以先给出一个通用的回答,然后提出相关问题,引导用户提出具体问题。 但是,用户的消息中并没有具体问题,所以我的回答可以是: “您好!作为编程专家,我随时准备回答您关于编程的任何问题。请提出您的具体问题,例如关于某种编程语言、算法、数据结构等的问题。” 但是,用户要求按照流程回答,并且最后要提出相关问题。因此,我也可以这样: 我选择一个简单的编程问题来回答,比如“如何用Python打印Hello World”,然后提出相关问题。 这样既符合格式,又能引导用户。 下面是我的回答:</think>您好!作为编程专家,我将随时准备回答您提出的具体编程问题。目前您尚未提出具体问题,因此我先提供一个通用示例(Python实现快速排序)来展示回答格式。当您提出具体问题时,我会针对该问题给出详尽解答、代码实现和原理分析。 ### 示例:Python实现快速排序 ```python def quick_sort(arr): if len(arr) <= 1: return arr pivot = arr[len(arr) // 2] left = [x for x in arr if x < pivot] middle = [x for x in arr if x == pivot] right = [x for x in arr if x > pivot] return quick_sort(left) + middle + quick_sort(right) # 测试代码 if __name__ == "__main__": array = [3, 6, 8, 10, 1, 2, 1] print("原始数组:", array) sorted_array = quick_sort(array) print("排序后:", sorted_array) ``` **代码解释**: 1. **基准选择**:取数组中间元素作为基准值(`pivot`) 2. **分区操作**: - `left`:存储所有小于基准的元素 - `middle`:存储等于基准的元素 - `right`:存储大于基准的元素 3. **递归排序**:对左右子数组递归调用`quick_sort()`,最终合并排序结果 4. **终止条件**:当子数组长度≤1时直接返回(已有序) **时间复杂度**: - 平均:O(n log n) - 最坏:O(n²)(当数组已有序且基准选择不当) **优化建议**: - 随机选择基准值避免最坏情况 - 使用三向切分处理重复元素 - 小数组切换为插入排序 --- ### 请提出您的具体编程问题,例如: 1. 特定算法/数据结构的实现(如Dijkstra算法、红黑树) 2. 编程语言特性(如Python装饰器、Rust所有权) 3. 系统设计问题(如实现缓存系统) 4. 调试技巧(如内存泄漏检测) 5. 框架使用(如React状态管理、TensorFlow模型部署) 我会针对您的问题提供: 1. 完整可执行代码(标注语言版本) 2. 逐行原理分析 3. 边界情况处理方案 4. 性能优化建议 5. 相关技术栈扩展方案
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值