最近刷到的MCP相关的概念属实太多,特别是看到一些视频通过本地MCP协议用LLM来操作渲染软件完成建模,感觉就很好。随即在想,是不是我们日常做的绝大部分事情,都是可以用这种方式来实现呢?
然后结合先前看到的各种和LLM相关的关键词,来梳理一下各个概念和自己的理解。个人理解部分纯粹个人看法,可能存在误导,请注意甄别。
MCP
MCP(Model Context Protocol)由 Anthropic 在2024年11月25日提出的开放协议,旨在标准化 AI 模型与外部数据源/工具的连接方式,类似 AI 世界的“USB-C 接口”。
图解
个人理解
MCP是2024年11月提出,但25年开始火起来了,挺大一部分因素也是得益于底层大模型能力越来越强,具有更好的推理能力,能更好的拆解任务、选择工具。
相对Function Call来说,MCP会更加宽容、更加包罗万象,更像一个大的工具箱。能让人畅想的未来是:所有现在的服务、WEB,后续是不是都可以封装成自己的MCP Server,供各处来调用?比如和智能设备说:帮我点一杯星巴克外卖。然后,智能体自动找到美团的MCP Server,发起对应功能调用。
Function Call
函数调用(Function Calling)是OpenAI在2023年6月13日对外发布的新能力。根据OpenAI描述,函数调用能力可以让大模型输出一个请求调用函数的消息,其中包含所需调用的函数信息、以及调用函数时所携带的参数信息。这是一种将大模型(LLM)能力与外部工具/API连接起来的新方式。
图解
个人理解
感觉上相对MCP来说,它更像一个可行性验证。可能在那个阶段,LLM可能还没那么强,不能那么准确的去根据prompt构造输入输出,所以OpenAI针对性的训练了带Function Call能力的模型,并且验证了用LLM来通过API、工具等,获取外部数据、资源的可行性。
LangChain
LangChain是一个强大的框架,旨在帮助开发人员使用语言模型构建端到端的应用程序。它提供了一套工具、组件和接口,可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 可以轻松管理与语言模型的交互,将多个组件链接在一起,并集成额外的资源,例如 API 和数据库。
图解
个人理解
LangChain是整合了prompt、记忆管理、工作流和智能体功能等框架,它能支持多步骤任务和外部工具集成等能力。希望通过Chains和Agent来实现复杂的逻辑。同一时刻,dify、coze等等很多和LLM相关的workflow也都应运而生,大概率是希望验证并走通一条既定路线。可以类比流水线,中间可以增加各种LLM、工具等,用他们来做分析、规划以及输入输出。
Agents
智能体(Agents)是一种超越简单文本生成的人工智能系统。它使用大型语言模型(LLM)作为其核心计算引擎,使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之,代理是一个具有复杂推理能力、记忆和执行任务手段的系统。
图解
个人理解
其实智能体这个概念很宽泛,或者说能不能把它定义成能感知环境、规划决策并执行任务的代码,它基于 LLM 但整合工具链和长期记忆。如图所示,它是以什么方式实现的,其实不重要,重要的是它具备这些特征:基于LLM作思考、分析、任务拆解,然后具有任务拆解、自动化工具调用能力、长期记忆、内循环式的输入和输出。
关键差异对比
维度 | MCP | LangChain | Function Call | Agent |
---|---|---|---|---|
定位 | 连接协议标准 | 开发框架 | API 调用机制 | 自主任务执行实体 |
核心能力 | 标准化数据/工具动态接入 | 模块化 LLM 应用构建 | 单步外部函数调用 | 多步骤任务规划与执行 |
交互方式 | 双向实时通信 | 链式工作流 | 单向请求-响应 | 动态环境感知与反馈 |
扩展性 | 依赖生态服务器开发 | 工具库与自定义链扩展 | 需预定义函数 | 工具库+长期记忆优化 |
典型场景 | 跨平台工具集成 | 文档分析\对话系统 | 实时数据查询 | 电商自动化、智能客服 |
结语
结合MCP来看,我会更加觉得,随着基座大模型能力的逐步增强。最终的形态会不会就是:LLM + MCP Server。我提供一整套工具箱给到LLM,然后告诉它我需要实现一个什么任务,让它自行拆解任务、调用工具,规整结果后继续下一步分析,直到完成任务。
现阶段或许他会是OpenManus那种形态,也或许它会是Clien+LLM+MCP。
最后,想起两年前和jinxu讨论的安全运营和LLM的结合,jinxu的看法是:是不是能有多个Agent,一个发任务、一个分析任务并说我需要那些数据,另一个就负责提供对应的数据,最终完成一次响应。现在看起来,似乎是,主要有一个Agent,并且给他一个MCP Server,告诉它有哪些工具可以使用,剩下的,是不是就可以交给它自己了呢?
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。