大模型应用的技术架构有哪些？

原创已于 2025-10-08 13:50:24 修改 · 725 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-06-01 09:20:58 首次发布

175 篇文章

订阅专栏

大模型应用的技术特点：门槛低、天花板高（稍微有点基础都能上手，但搞懂搞透需要大量的积累和沉淀）

大模型应用的技术架构主要有四种方式：纯 prompt、Agent+Function Calling、RAG（检索增强生成）和 Fine-tuning（微调）。

纯 Prompt

纯 prompt 是最简单的大模型应用方式，直接通过自然语言指令（prompt）引导模型生成所需的输出。适合任务简单、无需额外数据或复杂逻辑的场景。

纯 prompt 的核心在于设计高效的提示词（prompt engineering），通过调整 prompt 的措辞、结构或示例，优化模型的输出质量。常见的技巧包括：

response = model.generate(
    "请用一句话总结以下文本：'大模型应用的技术架构包括多种方式。'"
)

优点在于开发成本低、部署简单，但依赖模型本身的能力上限，难以处理复杂任务或定制化需求。

Agent+Function Calling 架构通过将大模型作为“智能代理”（Agent），结合外部工具或函数（Function Calling）完成复杂任务。模型负责理解用户意图并调用合适的工具，工具执行具体操作后返回结果。

典型流程：

def get_weather(city):
    # 调用天气 API
    return weather_data

response = model.generate(
    "用户问：'北京天气如何？'",
    functions=[get_weather]
)

适合需要实时数据、计算或专业工具支持的任务（如数据分析、代码执行）。灵活性高，但需额外开发工具集成逻辑。

RAG 结合检索（Retrieval）和生成（Generation），通过从外部知识库检索相关信息，再输入模型生成答案。解决模型静态知识库的局限性，适合需要动态或领域知识的场景。

工作流程：

retrieved_docs = vector_db.search("最新深度学习框架")
response = model.generate(
    f"根据以下资料回答问题：{retrieved_docs}\n问题：最新的深度学习框架有哪些？"
)

优点在于知识可更新、回答准确性高，但需维护检索系统和知识库。

微调通过在领域数据上继续训练大模型，使其适配特定任务或领域。适合需要模型深度定制化的场景（如医疗、法律专业问答）。

微调分为全参数微调（调整所有模型参数）和高效微调（如 LoRA、Adapter，仅调整部分参数）。

from transformers import Trainer

trainer = Trainer(
    model=model,
    train_dataset=dataset,
    args=training_args
)
trainer.train()

优点在于模型性能高度优化，但需要标注数据、计算成本高，且可能过拟合小规模数据。

实际应用中常组合多种架构（如 RAG+Agent）以平衡效果与成本。