最近,AI 圈最火的开源项目莫过于智谱推出的 Open-AutoGLM
Open-AutoGLM 让模型拥有了“操作手机”的能力。它不再只是陪你聊天,而是能真正帮你点外卖、发微信、刷淘宝,甚至完成各种工作。
然而,想要体验这种“未来感”,门槛并不低:为了跑通这个 Agent,你得准备一台闲置的安卓真机,连上数据线,配置 ADB,还得担心网络波动和手机电量、发热等问题……
有没有一种可能,我们不需要物理手机,直接在云端给 AI 分配一台“手机”,让它24小时待命?
答案是:有,而且非常丝滑。
今天,灵臂 Lybic 团队基于 Open-AutoGLM 进行了二次开发,成功将其接入了灵臂 Lybic 云端 Android 沙盒。
现在,不需要数据线,不需要真机,只要一行代码,你的 Open-AutoGLM 就能在云端“大显身手”。
实测演示
为了验证这套组合拳的威力,我们给 AI 布置了一个极其生活化的任务,不仅跨 App,还涉及复杂的语义理解和多轮操作:
“通过桌面X浏览器搜索一下本周北京票房最高的电影是什么,并将答案告诉我小红书关注列表里的好友momo,然后问他要不要一起去看这部电影”
我们先来看看灵臂 Lybic 云手机 + Open-AutoGLM 处理的怎么样
智谱 lybic demo
实测小结: 任务虽然跑通了,但细心的朋友可能发现了,我们在 Prompt 中埋下了一个“陷阱”——要求精准查询“本周”+“北京”的票房。AI 虽然流畅地跑完了全流程,但在决策时偷了个懒,直接采用了通用的搜索结果。
这恰恰说明了一个事实: 现阶段 GUI Agent 的短板更多在于模型的推理能力,但瑕不掩瑜,其全链路的执行过程令人惊艳。从浏览器检索到跨 App 跳转小红书,灵臂 Lybic 云手机与智谱 Open-AutoGLM 的配合如行云流水,做到了指令的毫秒级响应与无缝衔接,没有任何卡顿或环境报错。
不妨想象一下,当模型能力进一步对齐,这套“云端执行流”将如何重塑办公场景?从今天的查票房,到未来的企业级场景——比如打造7x24小时的金牌客服智能体,或是自动处理报销、数据录入的 OA 甚至 ERP 助手。我们有理由相信,随着大模型等基础设施的完善,GUI Agent 的井喷式爆发,或许就在明天。
我们做了什么
Open-AutoGLM 原生方案是通过 ADB 控制本地物理设备。而灵臂 Lybic 做的,是将 Open-AutoGLM 的智能规划能力与灵臂 Lybic 的云端基础设施进行了深度融合。
我们 Fork 了官方仓库,并集成了 Lybic SDK。相比原生方案,灵臂 Lybic 版带来了三大颠覆体验:
-
无需本地设备:你不需要购买测试机,也不用占用自己的手机。
-
剪断 ADB 数据线:通过 API 直接控制云端设备,告别繁琐的环境配置。
-
开箱即用:代码一跑,沙盒自动创建。用完即焚,环境纯净,支持高并发扩展。
手把手教程:3步复刻同款Agent
想体验视频里的操作?非常简单。不需要复杂的环境配置,只要你有 Python (版本不低于3.10)环境即可。如仍有疑问可以添加小助手lybic_ai获取1v1帮助。
1 获取代码
请注意,需要使用灵臂 Lybic 适配过的分叉版本
git clone https://github.com/lybic/Open-AutoGLM.git
cd Open-AutoGLM/
pip install -r requirements.txt
2 准备钥匙(API Key)
你需要两把钥匙,一把给“大脑”,一把给“身体”
-
lybic API Key: 前往灵臂 Lybic 官网(lybic.ai)注册并获取
lybic_ORG_ID和lybic_API_KEY。这是你调用云手机资源的凭证。 -
大模型 API Key: 你可以直接使用智谱 BigModel 或 ModelScope 的
AutoGLM-Phone-9B模型服务。
智谱 BigModel:前往 open.bigmodel.cn 申请
3 一键运行
直接在命令行运行 main.py,并带上 --lybic 参数,魔法就会发生。
以使用智谱 API 为例:
python main.py --lybic \
--lybic-org-id 你的lybic_ORG_ID \
--lybic-api-key 你的lybic_API_KEY \
--lybic-endpoint https://api.lybic.cn \
--base-url https://open.bigmodel.cn/api/paas/v4 \
--model "autoglm-phone" \
--apikey "你的智谱API_KEY" \
"打开飞书,给老板发信息询问今年春节放几天假"
按下回车的那一刻,灵臂 Lybic 会自动为你创建一台位于云端的 Android 手机。Open-AutoGLM 将接管这台手机的屏幕,开始执行你的指令。
你可以进入灵臂 Lybic 控制台,实时看到这台云手机在自动打开 App、自动打字、自动发送消息,甚至也支持随时人工接管,操作云手机。
为什么这很重要
如果说 Open-AutoGLM 解决了“AI 怎么操作手机”的问题,那么灵臂 Lybic 就解决了“AI 去哪里操作手机”的问题。
但 Open-AutoGLM 仅仅是冰山一角。在本次演示中,灵臂 Lybic 充当了 Open-AutoGLM 的云端载体。但作为专为 GUI Agent 打造的云端基础设施,灵臂 Lybic 的能力远不止于此:
-
不挑“大脑”:灵臂 Lybic 是中立的。除了 Open-AutoGLM,你也可以接入Claude 3.5 Computer Use、GPT-4o、Gemini 3,或是你自己训练的任何 Agent 框架。
-
不限“肢体”:除了云手机,灵臂 Lybic 还提供云端 Linux/Windows 桌面等环境。
-
自带“眼睛”:灵臂 Lybic 不仅提供环境,还内置了纯视觉操作引擎,帮助那些没有原生 GUI 能力的模型“看懂”屏幕,识别图标和 UI 元素。
在 GUI Agent 爆发的前夜,灵臂 Lybic 为开发者提供了一个标准化的、弹性的、可视化的云端执行层。
-
对于个人开发者:这是你最低成本(无需买手机、无需配电脑)体验和创造各种 Agent 的方式。
-
对于企业:这意味着你可以瞬间启动100台云设备,进行大规模的业务流程自动化或应用测试,而无需自建昂贵的机房。
601

被折叠的 条评论
为什么被折叠?



