强到不行,智谱发布升级 AutoGML,一句话操作电脑和手机

外界的生活和我们之间

是一个遥远的背景关系

能让自己的生活变得感觉

有意义的只能是自己主动

投入的少数的人和事

 

 

近日,差不多是在 OpenAI 初次发布 ChatGPT 的 2 年后的时间节点,智谱科技发布了 3 个划时代意义的产品,分别是针对手机的 AotoGML,针对电脑的 GML PC 和 web 的 GML web。

 

那这些 GML 能干什么呢?

 

简单来说它能够按照你的指令代替你来操作你的电脑和手机。

d57b14f3bd7846d3b70ed816df5d9208.png

 

想象一下,你只需要说一句话,就可以给以微信朋友圈的朋友进行点赞和评论,安慰正在生气的女朋友。你现在手忙不过来,让电脑给你自动打开产品经理发来的原型图和需求文档,然后在给你打开 vscode 和 goland 把前端和后端功能都实现了。

 

这些想象离现实就只有一步之遥了,你爽不爽呢?在这样的想象里人只需要说说话,聊聊天就把事情办妥了。

 

也许你是第一次听说 GML,那下面就来说说什么是 GML。

 

GML 的全称是通用模型语言,英文是General Language Model,可以理解为常说的大模型。

AutoGML 可以实现接收简单的文字/语音指令,就可以模拟人类操作手机。

 

从理论上讲,通过 GML 对GUI的深刻理解,AutoGLM可以完成人类在可视化电子产品能做的任何事情,包括电脑,手机,平板,手表。

 

在过去无论是百度的 AppBuilder 还是字节跳动的 coze,人要完成一类任务,还会涉及到配置复杂的工作流,需要很大的学习成本。

 

这样来说 AotoGML 非常类似于苹果手机里面的 siri,但是 siri 的能力还停留在简单的手机任务水平,比如打开一下我的微信,想听音乐了,帮我打开一下 qq 音乐。

 

 

AutoGML 则可以以接近人类操作的方式去完成手机上的操作。AutoGML 不仅可以帮我们打开软件,还能帮我们在软件里面点外卖,买机票。

 

AutoGML 支持如下的软件

b0982e4a8ed446a0a220a328de2dd697.png

 

 

把人类的衣食住行都通通包含进去了!

 

但是目前它在完成这些任务的时候也表现出了一些还没克服的问题,比如无法解决软件中弹窗的干扰,每个操作之间的延迟不如正常的人类反应快。有时候在输出的结果上并不是那么符合人类预期,甚至会有明显的错误。

 

在体验到自己很多事情不必再亲力亲为,可以花更多时间在自己喜欢的事情上的同时,作为人类的自己也会敏感的觉得,自己的数据会不会被泄露呢?

 

智谱科技对这个问题的回答是,AutoGML 不会主动获取用户的数据,除非用户主动授权给它。特别是涉及交易、支付等重要操作的步骤也会向用户仔细询问是否执行。

 

 

AutoGML 的出现也标志着 AI 从 chat 向人机交互操作 act 的重要转变。

 

我们跟 AIchat 了 2 年,现在 AI 能模拟人类完成一些实际的任务。

 

无论是电脑还是手机,人类为了为了方便操作它们,创造了鼠标,键盘,触控板,无数的需要人类付出大量时间的工具软件。

 

就拿软件领域来说,各式各样的工具每年每个月都是层出不穷,一个新的工具出现,总是带着它自己的语言而来,在 go 语言中表达是这样的,在 rust 语言中又是另外的图景,即使都是做的很简单的事情,都会发现它们都有各自的特色表达。

 

为了迎合时代的潮流,人不得不去花时间学习新的工具的使用。

 

在这个过程中人类似乎更像一个机器一样做着重复机械没有幸福感的事情。

 

去年,微软发布了 copilot ,预示着 AI 的角色还是一个副驾驶的位置,而今年,在 AI 洪流之中,Agent 则成了当之无愧的主角。

 

从目前来看,在软件领域,AI 的发展还没达到汽车领域无人驾驶的程度,Agent 能够在一定程度上可以代替人来做一些事情。不管怎么说 Agent 迈出了模拟人类与物理世界交互的第一步。

 

其实不仅仅是智谱在 Agent 上发了大力,国外的苹果推出的包括苹果的Apple Intelligence,谷歌的Jarvis,Anthropic的Computer Use 都在推进 Agent 的发展,还包括OpenAI即将发布的Operator。

 

那么 AI 的发展路径是怎样的呢?智谱和 OpenAI 都给出了自己的看法。

 

 

智谱定义了大模型发展的五个阶段

 

L1代表语言能力
L2代表逻辑思维能力与多模态能力
L3代表使用工具(Agent)的能力,
L4代表自我学习的能力
L5代表全面超越人类、探究科学规律的能力。

 

 

dbc29df2d8c34af895c71fd21b773763.png

 

OpenAi 也提出了自己的通往 AGI 的 5 个阶段

 

第一级:聊天机器人,具有对话语言能力的AI
第二级:推理者,能解决人类级别问题的AI
第三级:代理,能采取行动的AI系统
第四级:创新者,能辅助发明的AI
第五级:组织者,可以完成组织工作的AI

 

a299cc21f3744e80ba721c151539f02e.png

 

目前来看人类自己到了第三阶段 Agent。

 

虽然现在是 Agent 的初步形态,但是可以想象,Agent 将会深刻的重塑人机交互体验,实现此处操作,彼处响应,端云无缝远程的跨设备体验!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

golang学习记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值