【架构】【AI Engineering: Building Applications with Foundation Models】AI工程化:从基础模型到生产级部署的讨论

部署运行你感兴趣的模型镜像

本文参考:《AI Engineering: Building Applications with Foundation Models》,讨论下,AI工程具体有哪些部分,让我们在设计例如BI with AI工程相关架构中找到一些灵感与思路。

AI工程如“智能生态系统”,架构师需从业务痛点(如成本、可靠性)出发,构建三层栈的闭环。建议从小项目实践,逐步扩展——AI的未来在于可靠工程,而非单一模型

Chip Huyen的著作《AI Engineering: Building Applications with Foundation Models》为我们提供了宝贵框架,将AI工程分为应用开发、模型开发和基础设施三层栈。

在这里插入图片描述

这本书强调,AI工程从传统机器学习(ML)工程转型而来,更注重模型适应、评估和优化,而非从头训练。本文基于此书,结合实际工程实践,帮助架构师系统思考关键方面:

  • 工程师的工作范围、
  • 工程化pipeline治理、
  • 后端架构设计,
  • 推荐技术栈和细节。

想象AI工程如一座“智能大楼”:应用层是用户界面,模型层是核心引擎,基础设施是地基。作为架构师,你需要确保大楼稳固、可扩展,同时防范“地震”(如模型漂移或安全风险)。下面,我们逐层拆解这些思考点。

 

一、工程师的工作方面:从适应到运维的全链条

在AI工程中,工程师的工作远超代码编写,而是围绕三层栈展开。书籍指出,基础模型的出现让焦点从“建模”转向“适应”,工程师需处理从原型到生产的端到端流程。

  • 首先,应用开发层是工程师最常触及的部分。这里涉及将现成模型(如GPT系列)适应具体任务。核心工作包括提示工程(Prompt Engineering)和检索增强生成(RAG),例如设计输入提示引导模型生成客服响应。当然工程师需实验不同提示变体,确保输出可靠。

  • 其次,模型开发层聚焦微调和优化。工程师选择模型(如从Hugging Face库挑选),用少量数据微调(Finetuning),或进行数据集工程(如清洗和嵌入生成)。书籍强调,AI工程比传统ML更注重参数高效微调(PEFT),因为大模型资源密集。扩充来说,工程师还需处理模型压缩(如量化),降低推理成本。

  • 最后,基础设施层要求工程师管理部署和监控。工作包括模型服务(如API暴露)和资源分配(GPU集群)。书籍继承了ML工程的监控原则,但AI模型更大,工程师需关注延迟和成本。

另外,工程师还需跨层协作,如与数据科学家共同评估 (a)模型偏见(伦理方面),或与DevOps团队集成 (b)CI/CD。安全性是新兴重点,防范 (c)提示注入攻击;运维包括处理 (d)模型漂移,确保系统长期稳定。

这些方面确保工程师从“实验者”转为“系统构建者”,书籍建议从小团队实验起步,逐步规模化。

 

AI工程三层栈架构图

+-------------------------+   <-- 应用开发层:提示工程、RAG、评估
| Application Development |   (工程师焦点:模型适应与用户交互)
+-------------------------+
|                         |
| Model Development       |   <-- 模型开发层:微调、数据集工程、优化
|                         |   (工程师焦点:模型定制与效率提升)
+-------------------------+
|                         |
| Infrastructure          |   <-- 基础设施层:部署、监控、资源管理
|                         |   (工程师焦点:生产级服务与可扩展性)
+-------------------------+

此图展示层级依赖:应用层依赖模型层,模型层依赖基础设施。

 

二、这些方面如何工程化:构建可治理的pipeline

工程化是将AI工作流转化为标准化、可重复的pipeline,书中视此为AI工程的核心转变,避免“从0到60容易、60到100难”的陷阱。治理重点是自动化、版本控制和风险管理,形成闭环。

整体pipeline设计如“流水线工厂”:从数据摄入到部署迭代。

  • 实施时,用DAG工具(如Airflow)构建流程:数据 → 适应/微调 → 评估 → 部署 → 监控。
  • 治理细节包括版本控制(用DVC管理模型和数据),自动化测试(A/B测试提示),和CI/CD集成(GitHub Actions触发微调)。

 

为什么这样设计?AI的概率性输出易变,工程化规避风险,确保可复现。

 

分层工程化:

  • 应用层:提示和RAG模块化,治理用反馈循环(用户评分驱动迭代)。
  • 模型层:微调pipeline自动化(Hugging Face Trainer),数据治理防漂移。
  • 基础设施层:容器化(Docker)和编排(Kubernetes)实现 autoscaling。

扩充治理:引入可观测性(Prometheus监控指标),合规审计(偏见检测),和“fail-fast”原则(早评估)。书中强调,pipeline治理能将实验跟踪(如用MLflow)融入日常,防范法规变化(如GDPR)风险。实际中,建议从小pipeline起步,逐步添加AIOps工具,实现“业务指标到AI指标”的映射。

 
AI工程Pipeline治理架构图
以下是典型pipeline的流程图(简化表示):

Start: 业务痛点评估
|
v
数据摄入 (e.g., Datasets库) --> 模型适应 (Prompt/RAG/微调)
|
v
评估循环 (Metrics: 准确率、延迟; Tools: Evaluate)
|          ^
| Feedback |
v          |
部署 (Docker/K8s) --> 监控 (Prometheus) --> 迭代 (CI/CD)
|
v
End: 生产优化

此图强调反馈闭环:监控数据回流评估,驱动迭代。实际可扩展为DAG图,包含分支(如条件微调)。

 

三、对于后端工程:关键方面与推荐架构

后端工程是AI系统的“脊梁”,连接模型与用户,书中将其置于基础设施层,但强调与应用层的集成(如API支持RAG)。作为架构师,关注可扩展性、可靠性和安全性,确保后端应对大模型的高负载。

关键方面:

  • 模型服务:后端托管推理,处理并发(如数千查询/秒)。书中指出基础模型计算密集,后端需优化serving。
  • 数据集成:支持检索(如向量数据库连接),实时注入知识
  • API设计:RESTful/gRPC接口,处理多模态输入。扩充:集成认证(OAuth)防攻击。
  • 监控与日志:追踪延迟/错误,书籍强调生产级指标。
  • 边缘案例:错误重试、缓存频繁请求。

 

推荐架构:

  • 微服务架构:首选,将服务拆分(如模型服务、检索服务),用Spring Boot/FastAPI构建,Kubernetes编排。为什么?分层栈天然适合微服务,便于独立 scaling。
  • Serverless架构:对于突发负载,用AWS Lambda。细节:按需计费降低成本,集成API Gateway管理流量。
  • 事件驱动架构:用Kafka处理异步任务(如批量微调)。细节:无状态设计易扩展。

细节考:负载均衡(Nginx)、缓存(Redis)、安全(JWT加密)。书中建议继承ML原则,如监控,但适应大模型需TensorRT优化推理。这种架构确保后端从“瓶颈”转为“加速器”。

 

以下是微服务架构的简化表示:

User Requests --> API Gateway (e.g., Kong)
|
+--> Model Service (FastAPI + TensorRT for Inference)
|    |
|    +--> Model Registry (Hugging Face)
|
+--> Retrieval Service (RAG with Pinecone Vector DB)
|    |
|    +--> Cache (Redis)
|
+--> Monitoring Service (Prometheus + Grafana)
|
v
Database/Storage (e.g., S3 for Data)

此图展示服务解耦:API Gateway路由请求,服务间通过gRPC通信。Kubernetes可管理pod扩展。

 

四、各个方面的技术栈与细节:实用推荐

选择技术栈需考虑开源、易集成和社区支持,如下可参考各个层的推荐框架

  • 应用开发层:LangChain/LlamaIndex(RAG框架)、OpenAI API。细节:用few-shot模板;评估ROUGE分数;A/B测试变体。
  • 模型开发层:Hugging Face Transformers/PyTorch(微调)、Datasets(数据工程)、Optimum(优化)。细节:PEFT如LoRA减参数;WandB跟踪实验;量化至8-bit。
  • 基础设施层:Docker/Kubernetes(部署)、Prometheus(监控)、Ray(serving)。细节:GPU autoscaling;监控TPOT指标;用spot instances降成本。
  • 评估与治理:Evaluate(指标)、MLflow(pipeline)。细节:AIF360偏见检测;CI/CD用GitHub Actions。
  • 后端栈:FastAPI(API)、FAISS(检索)、Redis(缓存)。细节:gRPC高吞吐;batch inference降延迟。

扩充:云平台如AWS SageMaker一站式;伦理用Fairlearn。细节:从小规模实验(如本地Docker)起步,监控预算(<0.1元/查询)。

 

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

roman_日积跬步-终至千里

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值