本文参考:《AI Engineering: Building Applications with Foundation Models》,讨论下,AI工程具体有哪些部分,让我们在设计例如BI with AI工程相关架构中找到一些灵感与思路。
AI工程如“智能生态系统”,架构师需从业务痛点(如成本、可靠性)出发,构建三层栈的闭环。建议从小项目实践,逐步扩展——AI的未来在于可靠工程,而非单一模型。
Chip Huyen的著作《AI Engineering: Building Applications with Foundation Models》为我们提供了宝贵框架,将AI工程分为应用开发、模型开发和基础设施三层栈。

这本书强调,AI工程从传统机器学习(ML)工程转型而来,更注重模型适应、评估和优化,而非从头训练。本文基于此书,结合实际工程实践,帮助架构师系统思考关键方面:
- 工程师的工作范围、
- 工程化pipeline治理、
- 后端架构设计,
- 推荐技术栈和细节。
想象AI工程如一座“智能大楼”:应用层是用户界面,模型层是核心引擎,基础设施是地基。作为架构师,你需要确保大楼稳固、可扩展,同时防范“地震”(如模型漂移或安全风险)。下面,我们逐层拆解这些思考点。
一、工程师的工作方面:从适应到运维的全链条
在AI工程中,工程师的工作远超代码编写,而是围绕三层栈展开。书籍指出,基础模型的出现让焦点从“建模”转向“适应”,工程师需处理从原型到生产的端到端流程。
-
首先,应用开发层是工程师最常触及的部分。这里涉及将现成模型(如GPT系列)适应具体任务。核心工作包括提示工程(Prompt Engineering)和检索增强生成(RAG),例如设计输入提示引导模型生成客服响应。当然工程师需实验不同提示变体,确保输出可靠。
-
其次,模型开发层聚焦微调和优化。工程师选择模型(如从Hugging Face库挑选),用少量数据微调(Finetuning),或进行数据集工程(如清洗和嵌入生成)。书籍强调,AI工程比传统ML更注重参数高效微调(PEFT),因为大模型资源密集。扩充来说,工程师还需处理模型压缩(如量化),降低推理成本。
-
最后,基础设施层要求工程师管理部署和监控。工作包括模型服务(如API暴露)和资源分配(GPU集群)。书籍继承了ML工程的监控原则,但AI模型更大,工程师需关注延迟和成本。
另外,工程师还需跨层协作,如与数据科学家共同评估 (a)模型偏见(伦理方面),或与DevOps团队集成 (b)CI/CD。安全性是新兴重点,防范 (c)提示注入攻击;运维包括处理 (d)模型漂移,确保系统长期稳定。
这些方面确保工程师从“实验者”转为“系统构建者”,书籍建议从小团队实验起步,逐步规模化。
AI工程三层栈架构图
+-------------------------+ <-- 应用开发层:提示工程、RAG、评估
| Application Development | (工程师焦点:模型适应与用户交互)
+-------------------------+
| |
| Model Development | <-- 模型开发层:微调、数据集工程、优化
| | (工程师焦点:模型定制与效率提升)
+-------------------------+
| |
| Infrastructure | <-- 基础设施层:部署、监控、资源管理
| | (工程师焦点:生产级服务与可扩展性)
+-------------------------+
此图展示层级依赖:应用层依赖模型层,模型层依赖基础设施。
二、这些方面如何工程化:构建可治理的pipeline
工程化是将AI工作流转化为标准化、可重复的pipeline,书中视此为AI工程的核心转变,避免“从0到60容易、60到100难”的陷阱。治理重点是自动化、版本控制和风险管理,形成闭环。
整体pipeline设计如“流水线工厂”:从数据摄入到部署迭代。
- 实施时,用DAG工具(如Airflow)构建流程:数据 → 适应/微调 → 评估 → 部署 → 监控。
- 治理细节包括版本控制(用DVC管理模型和数据),自动化测试(A/B测试提示),和CI/CD集成(GitHub Actions触发微调)。
为什么这样设计?AI的概率性输出易变,工程化规避风险,确保可复现。
分层工程化:
- 应用层:提示和RAG模块化,治理用反馈循环(用户评分驱动迭代)。
- 模型层:微调pipeline自动化(Hugging Face Trainer),数据治理防漂移。
- 基础设施层:容器化(Docker)和编排(Kubernetes)实现 autoscaling。
扩充治理:引入可观测性(Prometheus监控指标),合规审计(偏见检测),和“fail-fast”原则(早评估)。书中强调,pipeline治理能将实验跟踪(如用MLflow)融入日常,防范法规变化(如GDPR)风险。实际中,建议从小pipeline起步,逐步添加AIOps工具,实现“业务指标到AI指标”的映射。
AI工程Pipeline治理架构图
以下是典型pipeline的流程图(简化表示):
Start: 业务痛点评估
|
v
数据摄入 (e.g., Datasets库) --> 模型适应 (Prompt/RAG/微调)
|
v
评估循环 (Metrics: 准确率、延迟; Tools: Evaluate)
| ^
| Feedback |
v |
部署 (Docker/K8s) --> 监控 (Prometheus) --> 迭代 (CI/CD)
|
v
End: 生产优化
此图强调反馈闭环:监控数据回流评估,驱动迭代。实际可扩展为DAG图,包含分支(如条件微调)。
三、对于后端工程:关键方面与推荐架构
后端工程是AI系统的“脊梁”,连接模型与用户,书中将其置于基础设施层,但强调与应用层的集成(如API支持RAG)。作为架构师,关注可扩展性、可靠性和安全性,确保后端应对大模型的高负载。
关键方面:
- 模型服务:后端托管推理,处理并发(如数千查询/秒)。书中指出基础模型计算密集,后端需优化serving。
- 数据集成:支持检索(如向量数据库连接),实时注入知识。
- API设计:RESTful/gRPC接口,处理多模态输入。扩充:集成认证(OAuth)防攻击。
- 监控与日志:追踪延迟/错误,书籍强调生产级指标。
- 边缘案例:错误重试、缓存频繁请求。
推荐架构:
- 微服务架构:首选,将服务拆分(如模型服务、检索服务),用Spring Boot/FastAPI构建,Kubernetes编排。为什么?分层栈天然适合微服务,便于独立 scaling。
- Serverless架构:对于突发负载,用AWS Lambda。细节:按需计费降低成本,集成API Gateway管理流量。
- 事件驱动架构:用Kafka处理异步任务(如批量微调)。细节:无状态设计易扩展。
细节考:负载均衡(Nginx)、缓存(Redis)、安全(JWT加密)。书中建议继承ML原则,如监控,但适应大模型需TensorRT优化推理。这种架构确保后端从“瓶颈”转为“加速器”。
以下是微服务架构的简化表示:
User Requests --> API Gateway (e.g., Kong)
|
+--> Model Service (FastAPI + TensorRT for Inference)
| |
| +--> Model Registry (Hugging Face)
|
+--> Retrieval Service (RAG with Pinecone Vector DB)
| |
| +--> Cache (Redis)
|
+--> Monitoring Service (Prometheus + Grafana)
|
v
Database/Storage (e.g., S3 for Data)
此图展示服务解耦:API Gateway路由请求,服务间通过gRPC通信。Kubernetes可管理pod扩展。
四、各个方面的技术栈与细节:实用推荐
选择技术栈需考虑开源、易集成和社区支持,如下可参考各个层的推荐框架
- 应用开发层:LangChain/LlamaIndex(RAG框架)、OpenAI API。细节:用few-shot模板;评估ROUGE分数;A/B测试变体。
- 模型开发层:Hugging Face Transformers/PyTorch(微调)、Datasets(数据工程)、Optimum(优化)。细节:PEFT如LoRA减参数;WandB跟踪实验;量化至8-bit。
- 基础设施层:Docker/Kubernetes(部署)、Prometheus(监控)、Ray(serving)。细节:GPU autoscaling;监控TPOT指标;用spot instances降成本。
- 评估与治理:Evaluate(指标)、MLflow(pipeline)。细节:AIF360偏见检测;CI/CD用GitHub Actions。
- 后端栈:FastAPI(API)、FAISS(检索)、Redis(缓存)。细节:gRPC高吞吐;batch inference降延迟。
扩充:云平台如AWS SageMaker一站式;伦理用Fairlearn。细节:从小规模实验(如本地Docker)起步,监控预算(<0.1元/查询)。

被折叠的 条评论
为什么被折叠?



