想象一下,如果AI的想象力被彻底释放,那将是一场怎样的革命?“大语言模型不过是个贪吃蛇,而AI Agent却能创造出‘王者荣耀’。”这不仅是网上的一句戏言,它预示着一个不可逆转的趋势。比尔·盖茨更是一语中的:“掌握AI Agent的人,将掌握未来"。这篇博客已经被我整理放在这里了,感兴趣的话可以读一下比尔盖茨的这篇个人博客比尔盖茨与吴恩达:AI agent智能体,将在年内彻底颠覆整个行业。
这并非危言耸听,因为AI Agent的崛起,意味着我们可能不再需要繁琐的搜索和以及各种流程。
快速预览本文:
第一部分:前言
第二部分:AI agent介绍
第三部分:AI agent国内主流平台
第四部分:AI agent实战,从0到1快速创建智能体
第五部分:agen智能体精选资料包【免费分享】
一、前言
AI Agent的发展历程虽然短暂,但其成长速度却让人瞠目结舌。去年,AutoGPT的问世,不仅在Github上迅速获得了极高的评价,更以其惊人的自我完成能力,让世人对AI Agent有了全新的认识。它不仅能够读写文件、浏览网页,还能自我审查和学习,这无疑为AI Agent的普及奠定了坚实的基础。
紧接着,Cognosys的融资成功,标志着AI Agent在商业领域的应用已经得到了市场的认可。而GPT-4的发布,更是将AI Agent的潜力推向了一个新的高度。OpenAI的GPTs和GPT Builder,让定制化AI变得触手可及,无论是日常生活还是专业领域,AI Agent都能提供更加精准和个性化的服务然而,这仅仅是开始。随着AI Agent的不断进化,我们正目睹着一场前所未有的变革。从零售到房地产,从旅游到金融,各行各业都在被AI重构。
这不仅是技术的革新,更是对传统商业模式的一次颠覆。科技巨头们,如OpenAI、微软、谷歌,凭借其在AI领域的深厚积累,已经占据了先发优势。而国内的创投圈,也在密切关注着AI Agent的动向,准备在这场变革中抢占先机。这是一个充满机遇的时代,也是一个充满挑战的时代。AI Agent的浪潮已经来临,它将如何改变我们的世界?我们又该如何在这个浪潮中找到自己的位置?这是一个值得每一个人深思的问题。不要等到一切都为时已晚,现在就是行动的时刻。
二、AI Agent介绍
什么是agent
在日常生活中,代理人是指以某种方式行事,在某物的生产中发挥作用的人。在当前爆火的AI领域,AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能体。不同于传统的人工智能,AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。比如,告诉 AI Agent 帮忙读获取一份最新的AI新闻,它就可以直接调用 各类新闻APP 选机进行AI新闻搜索收集,再进行整理输出,无需人类去指定每一步的操作。Agent 的概念由 Minsky 在其 1986 年出版的《思维的社会》一书中提出,Minsky 认为社会中的某些个体经过协商之后可求得问题的解,这些个体就是 Agent。他还认为Agent应具有社会交互性和智能性。Agent的概念由此被引入人工智能和计算机领域,并迅速成为研究热点。AI Agent(或 LLM智能代理)是一种可以通过以自主方式执行操作来实现预定义目标来执行更复杂任务的代理。
Hyperwrite 研发的 AI Agent 个人助理插件实现自动预订航班机票
AI Agent概览及组件
AI Agent的核心底层是由机器学习算法或 LLM 等 AI 解决方案提供支持的代理,能够比常规代理完成更完整的任务。例如,对于恒温器,我们可以选择一种更复杂、更完整的解决方案,而不是基本的解决方案,它会根据我们的习惯来适应我们的供暖情况。
AI Agent可以预测、与环境交互、具有记忆、进行推理、访问工具以及从数据集中学习的能力。他们还可以在动态环境中与用户或其他代理进行交互。
AI agent组件
传感器(Sensor):该组件负责收集来自环境的输入。其范围可以从简单的数据收集设备(例如温度传感器或摄像机)到更复杂的数据形式(例如音频输入、人类文本输入、来自互联网的文本数据,甚至实时数据)。
ai agent的概览图
执行器(Actuator):该组件根据传感器和代理逻辑收集的数据执行代理决定采取的操作。这可能是发送电子邮件、显示信息或任何其他形式的操作。
数据处理(Data Processing):不同代理之间存在很大差异。它重新组合了从数据清理和规范化到更复杂的操作(例如数据提取和转换)以及做出决策所需的一切。
如<ai agent的概览图>所示,数据处理组件由很多子组件组成,例如:
• 工具/功能:用于数据处理和决策,包括软件、库、机器学习框架、NLP 库以及音频、视频、图像甚至电子表格的多媒体处理工具。这些工具有助于数据的分析和解释,并允许高效且有效地执行任务。
• 记忆:使agent能够从经验中学习并随着时间的推移而改进。这可以包括机器学习算法、深度学习网络或任何允许代理适应和提高其性能的方法。
• 决策算法(或推理):这些算法允许代理根据其处理的数据、其拥有的知识和学习经验做出决策。其范围可以从简单的基于规则的系统到复杂的神经网络(例如目前大模型LLM)。
• 知识:agent用来做出决策的信息、规则、事实和数据的集合。这可以通过学习机制预先定义或随着时间的推移而扩展。例如目前的知识库。
AI agent应用场景
目前AI agent应用场景非常多,以下是部分举例,后续后专门分享一期。
虚拟个人助理
例如以智能手机中的助手为例,例如 iPhone 上的 Siri 或 Android 设备上的 Google Assistant。在这种情况下,传感器接收文本和语音。它可以使用操作系统和设备提供的数据,具有搜索用户联系人列表、在互联网上执行搜索等功能。可能的操作可以是显示搜索结果、向某人发送消息、播放音乐等……
导航系统
导航系统(例如汽车或智能手机中使用的导航系统)被认为是AI agent,因为它通过传感器处理数据(例如地图、实时交通信息、实时地理位置和用户偏好),并使用这些数据来做出决策(计算最佳路线),并从各种输入(例如首选路线、交通模式)中学习。它根据实时数据和用户反馈调整其建议,使其成为辅助导航的智能工具。
Chatbot 聊天机器人
聊天机器人(例如 ChatGPT)是模拟与人类用户对话的人工智能代理。他们“理解”和处理自然语言,从交互中“学习”以改进他们的反应,并可以根据对话上下文、用户输入和他们的编程做出决策。它们旨在提供相关的、上下文的和个性化的响应,使它们成为计算机和人类之间交互的智能界面。它们可用于客户服务、问答、代码生成或内容摘要。
警报系统
现代警报系统超越了传统的手动设置警报,结合了运动传感器、摄像头和其他收集环境数据的传感器。他们使用算法来区分正常活动和可疑活动,可以从误报中学习以减少误报的发生,并且通常允许远程监视和控制。这种处理输入、根据这些输入做出决策以及随着时间的推移学习以提高其准确性和有效性的能力使它们成为AI agent。
欺诈检测代理
AI agent在检测和预防金融领域的欺诈活动方面发挥着至关重要的作用。这些代理分析交易模式以识别可能表明欺诈行为的异常情况。银行和信用卡公司利用这些人工智能代理来监控账户活动,标记异常交易以供进一步调查,从而保护客户免受潜在欺诈。这些代理的持续学习能力使它们能够越来越有效地适应新的欺诈方法,为金融运营提供重要的安全层。
AI agent类型
简单反射代理Simple Reflex Agent
简单反射代理,顾名思义,是最简单的代理。他们并不热衷于复杂的任务。它的工作原理与 IFFT 或 zapier 相同。它根据他们对环境的感知以及预定义的规则和条件列表做出决策。它们应该在环境稳定的场景中使用,因为它们没有被设计为适应性强。以下是两个简单的例子使它更具体:
举例:
• 一个基本的垃圾邮件过滤器:它感知何时收到电子邮件,并根据关键字列表和发件人电子邮件等规则,可以决定直接将电子邮件移至垃圾邮件文件夹。
一个简单的恒温器:正如我在简介中所写的,一个简单的恒温器可以被比作一个简单的反射剂。
基于模型的反射代理Model-based Reflex Agent
它是一个简单的反射代理,但这次它有一个内部“记忆”。除了规则、条件和对环境的感知之外,它还可以利用之前事件和行动的历史来决定要做什么。
举例:
• 自动驾驶汽车:它从 A 点出发,必须遵守所有高速公路法规并在不产生任何事故的情况下到达 B 点。为此,它可以使用 GPS、摄像头、速度传感器或 LiDAR(光探测和测距,一种更复杂的光声纳)。为了到达目的地,它必须知道行程,如果有人想过马路就停下来,或者不能超过授权的速度,即使他需要超越另一辆车。
自动消息回复系统:它必须在短时间内通过发送相关答复来回复消息。为此,它可以访问各种数据库或搜索引擎来收集相关数据,然后使用它来提供高质量的答案。
基于目标的代理Goal-based Agent
顾名思义,目标基础代理由预定义的目标驱动。为了实现其目标,它可以访问各种工具和数据。它还评估其行动的潜在影响以及采取行动的后果。
举例:
• 自动驾驶汽车:它从 A 点出发,必须遵守所有高速公路法规并在不产生任何事故的情况下到达 B 点。为此,它可以使用 GPS、摄像头、速度传感器或 LiDAR(光探测和测距,一种更复杂的光声纳)。为了到达目的地,它必须知道行程,如果有人想过马路就停下来,或者不能超过授权的速度,即使他需要超越另一辆车。
自动消息回复系统:它必须在短时间内通过发送相关答复来回复消息。为此,它可以访问各种数据库或搜索引擎来收集相关数据,然后使用它来提供高质量的答案。
基于实用程序的代理Utility-based Agent
它评估目标结果的可取性。这种评估有助于它根据最有益的结果在多个目标或行动之间进行选择。
举例:
• 路线优化系统:我们可以回顾一下之前自动驾驶汽车的例子。它可以有一个agent专门根据道路施工、天气条件、乘客选择(速度和环保)和实时交通状况来预测最佳行程。
智能恒温器:接下来再次回到基本恒温器的例子。它可以变成一个更智能的版本,具有预定义的场景(白天比晚上更热,而不是在某些时间段)、天气、机器学习和存在传感器。它可以决定加热某个区域,如果外部温度下降则加热更多以补偿以保持目标温度,或者根据收集到的所有数据来预测加热过程以按时达到良好温度。
基于学习代理Learning Agent
它站在AI agent的顶端。这种agent由于其经验而随着时间的推移提高其性能,并且无需显式编程即可适应新情况。
举例:
• 垃圾邮件过滤器:学习代理的一个简单示例是垃圾邮件过滤器,它使用机器学习算法来检测和过滤掉不需要的电子邮件。该代理的目标是从历史数据和用户反馈中学习,以提高其将电子邮件分类为垃圾邮件或非垃圾邮件的能力。如果您使用 Outlook 或 Gmail,当您将电子邮件报告为垃圾邮件或垃圾邮件时,它将帮助算法更好地为您以及其他用户过滤未来的电子邮件。这个简单的学习代理会适应新的数据和用户偏好,以更好地实现过滤垃圾邮件的目标。
客户促销:当你使用一款你经常去购物的超市app时,它会学习你的行为并保留您之前的所有购买记录。该agent目标是在适当的时间向你提供优惠券或通短信向你提供您可能想购买的产品
三、国内主流agent平台
国内agent自去年至今,尤其是今年,如雨后春笋般爆发,目前整体使用和了解下来,coze最得我心。
四、AI agent实战
coze目前是我比较喜欢的零代码创建AI agent的平台之一。
4.1 从0到1,快速入门coze
扣子coze最早的是海外版coze.com,今年才有了coze.cn,这两个扣子最大的不同就是底层所支持的模型是不同的。coze.com底层是gpt4,而coze.cn底层是国内的云雀大模型,目前也支持月之暗面kimi。目前字节官方对扣子的定义为,是新一代 AI 原生应用开发服务平台。无论你是否有编程基础,都可以在扣子平台上快速搭建基于 AI 模型的各类问答 Bot,从解决简单的问答到处理复杂逻辑的对话。而且你可以将搭建的 Bot 发布到各类社交平台和通讯软件上,让更多的用户与你搭建的 Bot 聊天。
简而言之,就是一个零代码就可以玩起来的AI 智能体创建平台。
4.1.1 扣子上面有什么
可无限拓展的插件
不仅有官方的插件、还有个人写的插件,如果你没有代码能力那么就用别人上传插件吧!如果你有代码能力,可以自己开发插件,甚至提供给别人用。
丰富的数据源
前面我们说到,agent有一个组件是知识,对应目前很多人提到的RAG,外挂知识库,尤其是大模型不知道的垂直领域数据,我们可以让大模型通过知识库的知识来进行回答。
所以目前扣子提供了简单易用的知识库功能来管理和存储数据,支持 Bot 与你自己的数据进行交互。无论是内容量巨大的本地文件还是某个网站的实时信息,都可以上传到知识库中。这样,Bot 就可以使用知识库中的内容回答问题了。
• 内容格式:知识库支持添加文本格式、表格格式的数据。
• 内容上传:你可以将本地 TXT、PDF、DOCX、Excel、CSV 格式的文档上传至知识库,也可以基于 URL 获取在线网页内容和 API JSON 数据。同时支持直接在知识库内添加自定义数据。
持久化的记忆能力
扣子提供了方便 AI 交互的数据库记忆能力,可持久记住用户对话的重要参数或内容。
例如,创建一个数据库来记录阅读笔记,包括书名、阅读进度和个人注释。有了数据库,Bot 就可以通过查询数据库中的数据来提供更准确的答案。
灵活的工作流设计
工作流可以简单理解为编排,即可视化的拖拖拽拽,形成一个符合自己业务agent的数据流转图。
扣子的工作流功能可以用来处理逻辑复杂,且有较高稳定性要求的任务流。扣子提供了大量灵活可组合的节点包括大语言模型 LLM、自定义代码、判断逻辑等,无论你是否有编程基础,都可以通过拖拉拽的方式快速搭建一个工作流,例如:
• 创建一个搜集电影评论的工作流,快速查看一部最新电影的评论与评分。
• 创建一个撰写行业研究报告的工作流,让 Bot 写一份 20 页的报告。
有输入有输出,中间是用于处理各种逻辑的,目前是人为去编排,所以一定意义上agent还是在人为去创建,而不是真正完全意义上的agent。目前字节给出用户这样的一个agent创建产品,一定程度上是在培养用户的同时,也在深挖底层真正能够商业化落地的agent。
4.1.2 扣子上面可以做什么
扣子的核心就是构建AI Bot,即AI 机器人。但是在实际使用过程中,很多人会困惑平台上的AI Bot与agent的关系,其实AI bot的底层就是agent,这个AI bot可能是一个agent构成的,也可能是多个agent构成的,核心是最终能够构建符合业务需求的AI Bot。
AI bot创建的截图(可以选择单agent 以及 多agent)
基于前面提到的4.1.1 扣子上面有什么,那么就可以做什么。例如开发插件分享出来,或者创建AI bot分享出来放在AI bot商店等等。也可以创建含有不同个数agent的AI bot。
4.1.3 快速创建AI bot
一句话创建AI bot
打开链接
什么都不用调整,直接在右侧调试,好像效果也不错!
点击发布
私有配置:
不论是私有配置还是公有配置都不影响自己的使用,主要是否希望别人看到你的配置,仅此区别
公有配置
AI bot分类
发布成功
点击立即对话
同时也可以分享给其他人使用你的AI bot
第一个AI bot(单Agent)创建完成了!