亚马逊宣布推出Amazon Nova Act,这是一款经过训练可在网页浏览器中执行操作的新型AI模型,并推出Amazon Nova Act SDK研究预览版,开发者可以通过访问nova.amazon.com,体验这款新模型。使用Amazon Nova Act SDK,开发者可以构建能够在网页浏览器中完成任务的Agents,例如在内部系统提交外出申请、在日历中标记外出状态,以及设置“外出”自动回复邮件等。
体验Amazon Nova Act SDK
研究预览版请访问:
https://nova.amazon.com/
自从大语言模型(LLMs)进入公众视野以来,Agents主要是指能够用自然语言回应用户,或通过检索增强生成(RAG)技术利用知识库的系统。但现在Agents是能够代表用户在各种数字和物理环境中采取行动、完成任务的系统。如今,这类系统仍然处于新兴阶段,并且大多数仅限于并不多见的API完全覆盖的用例。
亚马逊致力于让Agents能够执行广泛、复杂、多步骤的任务,比如策划婚礼或处理复杂的IT任务,以提高企业生产力。尽管当前技术已经能够很好适应某些应用场景,但被设定了高层次目标的多步骤Agents,仍然需要人类持续的密切关注和监督。
为了克服Agents的这一局限性,Amazon Nova Act SDK允许开发者将复杂工作流分解为可靠的原子命令,例如搜索、结账、回答界面相关问题。同时,Amazon Nova Act SDK还支持在必要时为这些命令添加更详细的指令,例如“不要接受保险追加销售”;调用API,甚至通过Playwright直接进行浏览器操作以进一步增强可靠性,例如输入密码。
您可以穿插使用Python代码,无论是测试、断点、断言还是用于并行处理的线程池,因为即使是最快的Agents也会受到网页加载时间的限制。
*由亚马逊通用人工智能团队进行了基准测试。在基准测试中,提示词通常保持简单,例如对每个元素使用“点击<元素>”。在测试中,替代提示词并未提高性能,但可能还有进一步的提示词优化空间。结果是由亚马逊内部用于评估目的而测量的,使用(i)Bedrock API对Claude 3.7 Sonnet进行测试。
Amazon Nova Act注重可靠性,一旦系统运行正常,就无需再监视每一步操作的执行过程,您可以开启无监管模式,将Agents转变成一个可以集成到产品中的API,甚至根据需要设置异步运行。本例构建了一个在后台运行的Agents,可在每周二晚餐时为您订购一份沙拉外卖。
尽管Amazon Nova Act还处于早期阶段,但亚马逊对模型在不同环境中迁移用户界面理解能力的表现感到兴奋。尽管没有视频游戏经验,早期的Amazon Nova Act检查点似乎仍然能够在网页游戏等新颖环境中表现出色。
凭借结合可靠的构建模块和灵活的形式特性,Amazon Nova Act已应用于Alexa+,在集成服务无法提供所需API的情况下,能够自主方式导航至互联网,代表用户完成任务。
Amazon Nova Act是亚马逊实现构建大规模实用Agents关键能力愿景的第一步。我们正使用Amazon Nova模型开展一项大型培训项目,这是早期检查点之一。为了使Agents在处理日益复杂的多步骤任务时真正智能且可靠,就需要在各种实用环境中通过强化学习训练Agents,而不仅仅是通过简单演示对大语言模型进行监督微调。后续将与与大家分享更多有关这方面的研究和成果。
Agents最具价值的用例尚未被发掘,而这一重任将落在最优秀的开发者和设计师肩上。通过推出Amazon Nova Act SDK研究预览版,与开发者携手并进,借助快速原型设计和迭代反馈机制不断加以改进。感谢您陪伴我们一同踏上这段旅程!
Amazon Nova Act SDK现已提供研究预览版,您可参阅下方链接访问让您轻松探索Amazon Nova基础模型的新网站。
Amazon Nova模型访问网站:
https://nova.amazon.com/
*注:位于美国且拥有亚马逊账户的用户现可访问nova.amazon.com,立即开始探索或下载Amazon Nova Act来构建Agens。
星标不迷路,开发更极速!
关注后记得星标「亚马逊云开发者」
听说,点完下面4个按钮
就不会碰到bug了!
点击阅读原文查看博客!获得更详细内容!