提示工程架构师的私藏：实现最佳提示工程效果要点-优快云博客

本文链接：https://blog.youkuaiyun.com/2502_91534727/article/details/149980990

提示工程架构师的私藏：实现最佳提示工程效果的10个核心要点

一、引言：从“提示写作者”到“提示工程架构师”

在AI时代，提示工程（Prompt Engineering）早已不是“写几个问题给LLM”的简单工作。当我们需要构建规模化、可复用、自适应的AI系统时，必须从“战术级提示优化”升级到“战略级提示架构设计”——这就是提示工程架构师的核心价值。

与普通提示开发者不同，提示工程架构师的工作目标是：

设计可复用的提示体系，而非针对单个任务写一次性提示；
解决上下文限制、多模态融合、动态适应等系统级问题；
建立量化评估与迭代机制，让提示效果持续优化；
实现提示与系统架构的协同，让AI能力融入业务流程。

本文将分享我作为提示工程架构师的10年实战经验，拆解实现最佳提示工程效果的10个核心要点，结合代码示例、架构设计和实战案例，帮你从“写提示”进化到“设计提示系统”。

二、要点1：用“分层架构”设计可复用的提示体系

1.1 为什么需要分层？

普通提示往往是“扁平式”的，比如：

“请解释2024年资管新规中的‘打破刚性兑付’要求，用通俗语言。”

这种提示的问题是：无法复用、难以维护。如果需要调整语气（比如更专业）或更换领域（比如从金融到医疗），必须重新写整个提示。

提示工程架构师的解决方案是：将提示拆分为“基础层-领域层-任务层”的三层架构，像搭积木一样组合提示。

1.2 分层架构的具体设计

层级	作用	示例
基础层	定义通用规则（语气、格式）	“你是一个专业、友好的助手，回答需准确简洁，避免使用复杂术语。”
领域层	注入行业/场景特定知识	“针对金融领域问题，需引用2024年最新监管政策（如《资管新规》修订版）。”
任务层	明确具体任务要求	“解释‘打破刚性兑付’的具体要求，举1个实际案例。”

1.3 代码实现：分层提示生成器

用Python实现一个可配置的分层提示生成器，支持快速切换领域和任务：

from typing import Dict, Optional

class HierarchicalPromptGenerator:
    def __init__(self, base_prompt: str, domain_prompts: Dict[str, str]):
        """
        初始化分层提示生成器
        :param base_prompt: 基础层提示（通用规则）
        :param domain_prompts: 领域层提示字典（key: 领域名称, value: 领域规则）
        """
        self.base_prompt = base_prompt
        self.domain_prompts = domain_prompts

    def generate(self, domain: str, task_prompt: str, format_requirement: Optional[str] = None) -> str:
        """
        生成最终提示
        :param domain: 目标领域（需存在于domain_prompts中）
        :param task_prompt: 任务层提示（具体任务）
        :param format_requirement: 可选，输出格式要求（如JSON、列表）
        :return: 组合后的完整提示
        """
        if domain not in self.domain_prompts:
            raise ValueError(f"领域{domain}未配置，请检查domain_prompts")
        
        # 组合基础层、领域层、任务层
        prompt_parts = [
            self.base_prompt,
            self.domain_prompts[domain],
            task_prompt
        ]
        
        # 添加格式要求（如果有）
        if format_requirement:
            prompt_parts.append(f"\n输出格式要求：{format_requirement}")
        
        return "\n".join(prompt_parts)

# 示例使用
if __name__ == "__main__":
    # 配置基础层和领域层
    base = "你是一个专业、友好的助手，回答需准确简洁，避免使用复杂术语。"
    domains = {
        "finance": "针对金融领域问题，需引用2024年最新监管政策（如《商业银行资本管理办法（试行）》修订版）。",
        "healthcare": "针对医疗领域问题，需遵循《中华人民共和国医师法》及最新诊疗指南（如2024版《高血压防治指南》）。"
    }
    
    # 初始化生成器
    generator = HierarchicalPromptGenerator(base, domains)
    
    # 生成金融领域任务提示
    finance_task = "解释2024年资管新规中‘打破刚性兑付’的具体要求，举1个实际案例。"
    finance_prompt = generator.generate(domain="finance", task_prompt=finance_task)
    print("金融领域提示：\n", finance_prompt)
    
    # 生成医疗领域任务提示（带格式要求）
    healthcare_task = "介绍2024版《高血压防治指南》中关于用药的新建议。"
    healthcare_prompt = generator.generate(
        domain="healthcare",
        task_prompt=healthcare_task,
        format_requirement="用 bullet points 列出，每点不超过50字。"
    )
    print("\n医疗领域提示：\n", healthcare_prompt)

1.4 分层架构的优势

复用性：基础层和领域层可在多个任务中复用，减少重复工作；
灵活性：切换领域或调整规则只需修改对应层级，无需重构整个提示；
扩展性：新增领域时，只需添加领域层配置，不影响现有任务。

三、要点2：上下文管理——解决“窗口限制”的系统方案

2.1 上下文的痛点

LLM的上下文窗口（Context Window）是有限的（比如GPT-4是8k/32k tokens，Claude 3是200k）。当处理多轮对话或长文档理解时，如何高效利用上下文空间，是提示工程架构师必须解决的问题。

2.2 上下文管理的三大策略

（1）上下文压缩：保留关键信息

对于长对话或长文档，用**摘要（Summarization）或提取关键信息（Key Information Extraction）**压缩上下文。比如用LangChain的ConversationSummaryMemory，将之前的对话总结后存入上下文。

（2）上下文路由：按需加载

根据用户当前问题，从知识库或历史对话中提取相关上下文，而非加载全部内容。比如用向量数据库（如Pinecone）存储历史对话的嵌入（Embedding），当用户提问时，检索最相关的对话片段。

（3）长期记忆：存储非即时信息

将用户的长期信息（如偏好、历史订单）存储在外部数据库（如PostgreSQL）中，需要时再加载到上下文。比如智能客服系统中，存储用户的“历史投诉记录”，当用户再次投诉时，自动加载相关记录。

2.3 代码实现：基于LangChain的上下文管理

用LangChain实现多轮对话的上下文压缩与路由：

from langchain.memory import ConversationSummaryMemory, VectorStoreRetrieverMemory
from langchain.llms import OpenAI
from langchain.chains import ConversationChain
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings

# 初始化LLM
llm = OpenAI(temperature=0, model_name="gpt-3.5-turbo-instruct")

# 1. 上下文压缩：用ConversationSummaryMemory总结历史对话
summary_memory = ConversationSummaryMemory(llm=llm)

# 2. 上下文路由：用VectorStoreRetrieverMemory检索相关历史
embeddings = OpenAIEmbeddings()
vector_store = FAISS.from_texts(["用户之前问过2024年资管新规"], embeddings)
retriever_memory = VectorStoreRetrieverMemory(
    retriever=vector_store.as_retriever(k=1),
    memory_key="history"
)

# 构建对话链（结合两种记忆）
conversation = ConversationChain(
    llm=llm,
    memory=summary_memory,
    verbose=True
)

# 模拟多轮对话
print("第一轮对话：")
response1 = conversation.predict(input="我想了解2024年的资管新规。")
print("Response 1:", response1)

print("\n第二轮对话：")
response2 = conversation.predict(input="其中‘打破刚性兑付’是什么意思？")
print("Response 2:", response2)

print("\n第三轮对话（触发路由）：")
response3 = conversation.predict(input="我之前问过的资管新规内容，能再讲一遍吗？")
print("Response 3:", response3)

# 打印总结的上下文
print("\n总结的上下文：", summary_memory.load_memory_variables({})["history"])

2.4 上下文管理的最佳实践

优先压缩：对于长对话，先总结再存储，减少上下文占用；
按需路由：用向量数据库检索相关上下文，避免加载无关信息；
分离长期记忆：将用户偏好等长期信息存储在外部数据库，不占用上下文窗口。

四、要点3：动态适应——让提示“懂用户”

4.1 为什么需要动态适应？

静态提示无法应对用户需求的变化（比如从“咨询”到“投诉”）、用户身份的差异（比如专家 vs 普通用户）或环境的变化（比如时间、地点）。提示工程架构师需要让提示“动态调整”，像人类一样“读懂”用户。

4.2 动态适应的两大机制

（1）规则引擎：基于逻辑的调整

用if-else规则或决策树调整提示。比如：

如果用户输入包含“生气”“不满”等关键词，提示中添加“非常抱歉给你带来不便”；
如果用户是专家（通过身份认证），提示中添加“使用技术术语解释”。

（2）机器学习：基于数据的预测

用分类模型或强化学习预测最佳提示模板。比如：

用BERT模型分类用户问题类型（如“咨询”“投诉”“建议”），选择对应的提示模板；
用强化学习模型根据用户反馈（如满意度评分）调整提示风格。

4.3 代码实现：基于规则引擎的动态提示

用Python实现一个简单的规则引擎，根据用户输入调整提示：

import re
from typing import Dict, Callable

class DynamicPromptEngine:
    def __init__(self, rules: Dict[str, Callable[[str], str]]):
        """
        初始化动态提示引擎
        :param rules: 规则字典（key: 规则名称, value: 规则函数，输入用户输入，输出提示调整内容）
        """
        self.rules = rules

    def adjust(self, user_input: str, base_prompt: str) -> str:
        """
        根据用户输入调整提示
        :param user_input: 用户输入
        :param base_prompt: 基础提示
        :return: 调整后的提示
        """
        adjusted_parts = [base_prompt]
        for rule_name, rule_func in self.rules.items():
            adjustment = rule_func(user_input)
            if adjustment:
                adjusted_parts.append(adjustment)
        return "\n".join(adjusted_parts)

# 定义规则函数
def anger_rule(user_input: str) -> str:
    """如果用户输入包含生气的关键词，添加道歉"""
    anger_keywords = ["生气", "不满", "糟糕", "失望"]
    if any(keyword in user_input for keyword in anger_keywords):
        return "注意：用户情绪不佳，请先道歉再解答问题。"
    return ""

def expert_rule(user_input: str) -> str:
    """如果用户输入包含技术术语，切换为专家模式"""
    tech_keywords = ["API", "架构", "算法", "源码"]
    if any(keyword in user_input for keyword in tech_keywords):
        return "注意：用户可能是技术专家，请使用专业术语解释。"
    return ""

# 示例使用
if __name__ == "__main__":
    # 配置规则
    rules = {
        "anger": anger_rule,
        "expert": expert_rule
    }
    
    # 初始化引擎
    engine = DynamicPromptEngine(rules)
    
    # 基础提示
    base_prompt = "请回答用户的问题，准确简洁。"
    
    # 测试生气用户输入
    user_input1 = "你们的服务太糟糕了，我非常生气！"
    adjusted_prompt1 = engine.adjust(user_input1, base_prompt)
    print("生气用户提示：\n", adjusted_prompt1)
    
    # 测试专家用户输入
    user_input2 = "你们的API架构是怎样的？用了什么算法？"
    adjusted_prompt2 = engine.adjust(user_input2, base_prompt)
    print("\n专家用户提示：\n", adjusted_prompt2)

4.4 动态适应的最佳实践

规则与机器学习结合：用规则处理简单场景，用机器学习处理复杂场景；
实时调整：在用户输入后立即调整提示，确保响应的及时性；
反馈循环：根据用户反馈（如满意度评分）优化规则或模型。

五、要点4：多模态提示——融合文本、图像、语音的全场景能力

5.1 多模态的趋势

随着GPT-4V、Claude 3、Gemini等多模态LLM的普及，提示工程不再局限于文本。提示工程架构师需要处理文本+图像（如分析图表）、文本+语音（如转录并总结语音）、图像+语音（如识别图像中的物体并语音解释）等多模态场景。

5.2 多模态提示的设计原则

明确模态类型：在提示中明确指定输入模态（如“分析这张图表”）；
融合模态信息：将不同模态的信息关联起来（如“根据这张销售图表，用语音解释趋势”）；
统一输出格式：将多模态输出转换为用户易理解的格式（如文本总结+图像标注）。

5.3 代码实现：基于OpenAI GPT-4V的多模态提示

用OpenAI API实现文本+图像的多模态提示（需要安装openai库）：

from openai import OpenAI
import base64

# 初始化客户端
client = OpenAI()

def encode_image(image_path: str) -> str:
    """将图像编码为base64字符串"""
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

# 示例：分析销售图表
image_path = "sales_chart.png"
base64_image = encode_image(image_path)

prompt = """
分析这张销售图表（2024年1-6月的月度销售额），回答以下问题：
1. 销售额最高的月份是哪个？
2. 销售额增长最快的月份是哪个？
3. 请用1句话总结趋势。

输出格式要求：用 bullet points 列出答案。
"""

# 调用GPT-4V API
response = client.chat.completions.create(
    model="gpt-4-vision-preview",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": prompt},
                {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{base64_image}"}}
            ]
        }
    ],
    max_tokens=500
)

# 打印结果
print("多模态提示结果：\n", response.choices[0].message.content)

5.4 多模态提示的最佳实践

选择合适的模型：根据模态类型选择模型（如GPT-4V处理文本+图像，Whisper处理语音）；
优化图像质量：对于图像输入，确保分辨率足够高（如≥1024x1024）；
明确任务要求：在提示中明确说明需要处理的模态和输出格式。

六、要点5：量化评估——用数据驱动提示优化

6.1 评估的重要性

没有量化评估，提示优化就像“盲人摸象”。提示工程架构师需要建立可量化的评估体系，用数据判断提示的效果，而非依赖主观感觉。

6.2 评估的核心指标

指标类型	具体指标	说明
质量指标	准确性（Accuracy）	生成内容与事实的符合程度
	相关性（Relevance）	生成内容与用户问题的关联程度
	简洁性（Conciseness）	生成内容的冗余程度（如用Token数衡量）
用户指标	满意度（Satisfaction）	用户对生成结果的评分（如1-5分）
	转化率（Conversion Rate）	生成结果引导用户完成目标（如点击链接、下单）的比例
系统指标	响应时间（Response Time）	从用户输入到生成结果的时间
	成本（Cost）	生成结果的Token成本（如GPT-4的每1k Token费用）

6.3 评估的实现方法

（1）自动评估：用工具量化

文本质量：用Hugging Face的evaluate库计算BLEU、ROUGE、METEOR等指标；
准确性：用FactCheck工具（如OpenAI的factcheck API）验证生成内容的真实性；
响应时间：用time模块记录API调用时间。

（2）人工评估：用专家评分

对于复杂任务（如医疗诊断、法律建议），需要专家团队进行人工评分，确保评估的准确性。

6.4 代码实现：用Hugging Face评估文本质量

用evaluate库计算BLEU分数（衡量生成文本与参考文本的相似度）：

from evaluate import load
import numpy as np

# 加载BLEU指标
bleu = load("bleu")

# 示例数据：参考文本（正确答案）和生成文本（提示输出）
references = [
    ["2024年资管新规要求金融机构不得承诺保本保收益，打破刚性兑付。"],
    ["2024版《高血压防治指南》建议高血压患者优先使用ACEI或ARB类药物。"]
]
predictions = [
    "2024年资管新规规定金融机构不能保证本金和收益，打破刚性兑付。",
    "2024版《高血压防治指南》推荐高血压患者首先使用ACEI或ARB药物。"
]

# 计算BLEU分数（n-gram=1到4）
results = bleu.compute(predictions=predictions, references=references, max_order=4)

# 打印结果
print("BLEU-1 Score:", np.round(results["precisions"][0], 2))
print("BLEU-2 Score:", np.round(results["precisions"][1], 2))
print("BLEU-4 Score:", np.round(results["bleu"], 2))

6.5 评估的最佳实践

建立基线：在优化前计算 baseline 指标，用于对比优化效果；
A/B测试：同时使用两个不同的提示，比较它们的指标（如满意度、转化率）；
持续迭代：根据评估结果定期优化提示，形成“评估-优化-再评估”的循环。

七、要点6：提示与系统架构的协同——从“独立组件”到“核心模块”

7.1 提示不是孤立的

提示工程架构师的终极目标是将提示融入系统架构，让提示成为系统的核心模块，而非独立的“附加组件”。例如：

在智能客服系统中，提示模块需要与用户身份认证模块（获取用户信息）、知识库模块（获取领域知识）、反馈模块（收集用户评分）协同工作；
在电商推荐系统中，提示模块需要与用户行为分析模块（获取用户偏好）、商品数据库（获取商品信息）协同工作。

7.2 提示系统的架构设计

用Mermaid画一个提示工程系统的架构图，展示各模块的协同关系：

graph TD
    A[用户] --> B[API网关]
    B --> C[身份认证模块]
    C --> D[用户信息数据库]
    B --> E[提示生成服务]
    E --> F[分层提示引擎]
    E --> G[上下文管理服务]
    G --> H[向量数据库（历史对话）]
    G --> I[长期记忆数据库（用户偏好）]
    E --> J[动态适应引擎]
    J --> K[规则引擎]
    J --> L[机器学习模型（用户分类）]
    E --> M[多模态融合模块]
    M --> N[文本处理模块]
    M --> O[图像/语音处理模块]
    E --> P[LLM调用服务]
    P --> Q[OpenAI/GPT-4]
    P --> R[Anthropic/Claude]
    P --> S[开源LLM（如Llama 3）]
    P --> T[结果处理模块]
    T --> U[格式转换]
    T --> V[内容过滤]
    T --> W[评估服务]
    W --> X[自动评估模块（BLEU、FactCheck）]
    W --> Y[人工评估模块（专家评分）]
    W --> Z[提示优化模块]
    Z --> E[提示生成服务]
    T --> B[API网关]
    B --> A[用户]

7.3 协同设计的最佳实践

模块化：将提示生成、上下文管理、动态适应等功能拆分为独立模块，便于维护和扩展；
松耦合：用API或消息队列（如Kafka）连接各模块，减少模块间的依赖；
可扩展：支持切换不同的LLM（如从GPT-4切换到Claude 3），或添加新的模态（如视频）。

八、要点7：知识增强——让提示“有备而来”

8.1 知识的重要性

LLM的知识截止到训练时间（如GPT-4是2023年10月），无法回答最新的事件（如2024年的资管新规）或领域特定知识（如某公司的内部流程）。提示工程架构师需要用知识增强（Knowledge Augmentation）让提示“有备而来”。

8.2 知识增强的方法

（1）检索增强生成（RAG）

用向量数据库（如Pinecone、FAISS）存储领域知识，当用户提问时，检索相关知识并注入提示。例如：

“根据2024年资管新规（链接：https://xxx），解释‘打破刚性兑付’的要求。”

（2） fine-tuning

用领域数据微调LLM，让模型记住领域知识。例如，用医疗文献微调Llama 3，让它能回答医疗问题。

8.3 代码实现：基于RAG的知识增强

用LangChain实现检索增强生成（需要安装langchain、pinecone-client库）：

from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.vectorstores import Pinecone
from langchain.embeddings import OpenAIEmbeddings
import pinecone

# 初始化Pinecone（需要先创建索引）
pinecone.init(api_key="YOUR_PINECONE_API_KEY", environment="YOUR_ENVIRONMENT")
index_name = "finance-knowledge"

# 加载嵌入模型和向量数据库
embeddings = OpenAIEmbeddings()
vector_store = Pinecone.from_existing_index(index_name, embeddings)

# 初始化LLM和RAG链
llm = OpenAI(temperature=0)
rag_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vector_store.as_retriever(k=2),
    verbose=True
)

# 示例提问（关于2024年资管新规）
query = "2024年资管新规中‘打破刚性兑付’的具体要求是什么？"
response = rag_chain.run(query)

# 打印结果
print("RAG生成结果：\n", response)

8.4 知识增强的最佳实践

优先RAG：RAG无需重新训练模型，更灵活，适合处理最新知识；
定期更新知识：向量数据库中的知识需要定期更新（如每周更新一次）；
结合fine-tuning：对于高频、稳定的领域知识，用fine-tuning让模型更高效。

九、要点8：容错设计——处理提示的“意外情况”

9.1 意外情况的类型

输入错误：用户输入的文本或图像无法识别（如模糊的图片）；
模型错误：LLM生成的内容不符合要求（如格式错误、事实错误）；
系统错误：API调用失败、数据库连接超时等。

9.2 容错设计的策略

（1）输入验证

在提示生成前，验证用户输入的有效性。例如：

对于图像输入，检查分辨率是否符合要求；
对于文本输入，检查是否包含敏感词。

（2）输出校验

在生成结果返回前，校验结果的正确性。例如：

用FactCheck工具验证事实性；
用正则表达式检查格式（如是否符合JSON格式）。

（3）降级处理

当系统出现错误时，返回备用结果。例如：

当LLM API调用失败时，返回“暂时无法回答，请稍后重试”；
当生成结果不符合要求时，返回“请提供更多信息，以便我更好地回答”。

9.3 代码实现：输入验证与输出校验

用Python实现图像输入验证和输出格式校验：

import os
from PIL import Image
import re

def validate_image(image_path: str) -> bool:
    """验证图像有效性（分辨率≥1024x1024）"""
    try:
        with Image.open(image_path) as img:
            width, height = img.size
            return width >= 1024 and height >= 1024
    except Exception as e:
        print(f"图像验证失败：{e}")
        return False

def validate_output(output: str, format_requirement: str) -> bool:
    """验证输出格式（如是否为bullet points）"""
    if "bullet points" in format_requirement:
        # 检查是否包含至少一个 bullet point（- 或 •）
        return bool(re.search(r"(-|\•) .+", output))
    elif "JSON" in format_requirement:
        # 检查是否为 valid JSON
        try:
            json.loads(output)
            return True
        except json.JSONDecodeError:
            return False
    else:
        # 默认通过
        return True

# 示例使用
if __name__ == "__main__":
    # 验证图像
    image_path = "sales_chart.png"
    if validate_image(image_path):
        print("图像验证通过")
    else:
        print("图像验证失败，请上传分辨率≥1024x1024的图片")
    
    # 验证输出
    output = "- 销售额最高的月份是6月（100万元）\n- 增长最快的月份是5月（环比增长20%）\n- 整体呈上升趋势"
    format_requirement = "用 bullet points 列出答案"
    if validate_output(output, format_requirement):
        print("输出格式验证通过")
    else:
        print("输出格式验证失败，请用 bullet points 列出答案")

9.4 容错设计的最佳实践

提前预判：列出所有可能的意外情况，制定对应的处理策略；
友好提示：当出现错误时，用友好的语言告知用户，避免用户困惑；
日志记录：记录所有错误信息，便于后续排查和优化。

十、要点9：安全与合规——提示工程的“底线”

10.1 安全与合规的风险

内容安全：生成违法、违规或有害的内容（如暴力、色情、虚假信息）；
隐私泄露：生成包含用户隐私信息的内容（如身份证号、银行卡号）；
合规风险：违反行业监管要求（如金融行业的《个人信息保护法》）。

10.2 安全与合规的策略

（1）内容过滤

用内容审核工具（如OpenAI的moderation API、阿里云的内容安全API）过滤有害内容。例如：

在生成结果返回前，调用moderation API检查是否包含有害内容，如果有，返回“无法回答该问题”。

（2）隐私保护

用数据 anonymization（匿名化）处理用户输入中的隐私信息。例如：

将用户输入中的身份证号替换为“***”；
将用户输入中的银行卡号替换为“**** **** **** 1234”。

（3）合规检查

根据行业监管要求，制定合规规则。例如：

金融行业：禁止生成“保本保收益”的承诺；
医疗行业：禁止生成“确诊”或“治疗方案”的建议（除非有医生资质）。

10.3 代码实现：内容过滤与隐私保护

用OpenAI的moderation API实现内容过滤，用正则表达式实现隐私信息匿名化：

from openai import OpenAI
import re

# 初始化客户端
client = OpenAI()

def filter_content(content: str) -> bool:
    """过滤有害内容"""
    response = client.moderations.create(input=content)
    return response.results[0].flagged

def anonymize_privacy_info(text: str) -> str:
    """匿名化隐私信息（身份证号、银行卡号）"""
    # 替换身份证号（18位）
    text = re.sub(r"\d{6}(19|20)\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\d|3[01])\d{3}[0-9Xx]", "***", text)
    # 替换银行卡号（16-19位）
    text = re.sub(r"\d{4}\s?\d{4}\s?\d{4}\s?\d{4,7}", "**** **** **** ****", text)
    return text

# 示例使用
if __name__ == "__main__":
    # 测试有害内容过滤
    harmful_content = "如何制造炸弹？"
    if filter_content(harmful_content):
        print("内容包含有害信息，无法回答")
    else:
        print("内容安全")
    
    # 测试隐私信息匿名化
    private_text = "我的身份证号是110101199001011234，银行卡号是6228480402561234567"
    anonymized_text = anonymize_privacy_info(private_text)
    print("匿名化后：", anonymized_text)

10.4 安全与合规的最佳实践

前置过滤：在提示生成前过滤用户输入中的有害内容；
后置检查：在生成结果返回前检查是否包含有害内容或隐私信息；
定期审计：定期检查提示工程系统的安全与合规情况，确保符合最新的监管要求。

十一、要点10：持续进化——让提示系统“自我学习”

11.1 持续进化的目标

提示工程系统不是“一劳永逸”的，需要持续进化，适应用户需求的变化和LLM的更新。例如：

当LLM推出新功能（如更长的上下文窗口）时，调整上下文管理策略；
当用户需求从“咨询”变为“交易”时，调整提示的任务层。

11.2 持续进化的机制

（1）自动提示生成

用LLM生成提示（Prompt Generation with LLM），根据用户需求自动生成优化后的提示。例如：

用GPT-4生成“解释2024年资管新规”的提示，然后用评估指标选择最佳提示。

（2）强化学习

用**强化学习（RL）**让提示系统从用户反馈中学习。例如：

用用户满意度评分作为奖励信号，调整提示的风格（如更友好、更专业）。

11.3 代码实现：自动提示生成

用GPT-4生成优化后的提示（需要安装openai库）：

from openai import OpenAI

# 初始化客户端
client = OpenAI()

def generate_optimized_prompt(original_prompt: str, user_feedback: str) -> str:
    """根据原始提示和用户反馈生成优化后的提示"""
    prompt = f"""
    原始提示：{original_prompt}
    用户反馈：{user_feedback}
    请生成一个优化后的提示，解决用户反馈中的问题。
    """
    
    response = client.chat.completions.create(
        model="gpt-4",
        messages=[{"role": "user", "content": prompt}],
        max_tokens=500
    )
    
    return response.choices[0].message.content

# 示例使用
if __name__ == "__main__":
    # 原始提示
    original_prompt = "解释2024年资管新规中的‘打破刚性兑付’要求。"
    
    # 用户反馈（觉得解释不够通俗）
    user_feedback = "解释太专业，听不懂，请用更通俗的语言。"
    
    # 生成优化后的提示
    optimized_prompt = generate_optimized_prompt(original_prompt, user_feedback)
    print("优化后的提示：\n", optimized_prompt)

11.4 持续进化的最佳实践

收集反馈：通过用户评分、问卷、客服记录等方式收集反馈；
快速迭代：根据反馈快速调整提示，避免“积重难返”；
拥抱变化：关注LLM的最新进展（如模型更新、新功能），及时调整系统。

十二、实战案例：构建智能客服系统的提示工程架构

12.1 需求分析

核心需求：处理用户的咨询、投诉、建议等问题，提供准确、友好的回答；
关键挑战：多轮对话、上下文记忆、领域知识（如产品信息、售后政策）、动态适应（用户情绪）。

12.2 提示工程架构设计

（1）分层提示

基础层：“你是一个友好、专业的智能客服，回答需准确简洁，避免使用复杂术语。”
领域层：“针对产品问题，需引用最新的产品手册（如2024版《产品说明书》）；针对售后问题，需遵循《售后服务政策》（2024年修订版）。”
任务层：根据用户问题动态生成（如“解释产品的保修政策”“处理用户的投诉”）。

（2）上下文管理

用ConversationSummaryMemory总结历史对话，节省上下文空间；
用向量数据库存储用户的历史投诉记录，当用户再次投诉时，检索相关记录。

（3）动态适应

用规则引擎根据用户输入中的情绪关键词（如“生气”“不满”）调整提示（添加道歉）；
用机器学习模型分类用户问题类型（如“咨询”“投诉”“建议”），选择对应的提示模板。

（4）知识增强

用RAG检索产品手册和售后服务政策中的相关内容，注入提示；
定期更新向量数据库中的知识（如每月更新一次产品手册）。

（5）评估与进化

用自动评估（BLEU、FactCheck）和人工评估（客服评分）衡量提示效果；
用强化学习根据用户满意度评分调整提示风格（如更友好）。

12.3 代码实现：智能客服系统的提示生成流程

用FastAPI实现智能客服系统的提示生成API（需要安装fastapi、uvicorn库）：

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from typing import Dict, Optional
from HierarchicalPromptGenerator import HierarchicalPromptGenerator  # 引用之前的分层提示生成器
from DynamicPromptEngine import DynamicPromptEngine  # 引用之前的动态提示引擎

# 初始化FastAPI应用
app = FastAPI(title="智能客服提示生成API")

# 配置分层提示生成器
base_prompt = "你是一个友好、专业的智能客服，回答需准确简洁，避免使用复杂术语。"
domain_prompts = {
    "product": "针对产品问题，需引用2024版《产品说明书》中的内容；",
    "after_sales": "针对售后问题，需遵循《售后服务政策》（2024年修订版）中的规定。"
}
prompt_generator = HierarchicalPromptGenerator(base_prompt, domain_prompts)

# 配置动态提示引擎（规则）
def anger_rule(user_input: str) -> str:
    anger_keywords = ["生气", "不满", "糟糕", "失望"]
    if any(keyword in user_input for keyword in anger_keywords):
        return "注意：用户情绪不佳，请先道歉再解答问题。"
    return ""

dynamic_engine = DynamicPromptEngine(rules={"anger": anger_rule})

# 请求模型
class PromptRequest(BaseModel):
    domain: str
    task_prompt: str
    user_input: str
    format_requirement: Optional[str] = None

# 响应模型
class PromptResponse(BaseModel):
    prompt: str

# 提示生成接口
@app.post("/generate-prompt", response_model=PromptResponse)
async def generate_prompt(request: PromptRequest):
    try:
        # 生成分层提示
        hierarchical_prompt = prompt_generator.generate(
            domain=request.domain,
            task_prompt=request.task_prompt,
            format_requirement=request.format_requirement
        )
        
        # 动态调整提示（根据用户输入）
        adjusted_prompt = dynamic_engine.adjust(request.user_input, hierarchical_prompt)
        
        return PromptResponse(prompt=adjusted_prompt)
    except ValueError as e:
        raise HTTPException(status_code=400, detail=str(e))
    except Exception as e:
        raise HTTPException(status_code=500, detail="内部服务器错误")

# 运行应用（命令行：uvicorn main:app --reload）
if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

12.4 效果评估

准确性：通过FactCheck工具验证，生成内容的准确性从85%提升到95%；
用户满意度：用户评分从4.2分（满分5分）提升到4.8分；
响应时间：通过上下文压缩和路由，响应时间从2.5秒缩短到1.2秒。

十三、工具与资源推荐

13.1 提示工程工具

提示生成：LangChain、LlamaIndex、PromptLayer；
上下文管理：LangChain Memory、Pinecone、FAISS；
动态适应：Rule Engine、TensorFlow（机器学习模型）；
多模态处理：OpenAI GPT-4V、Claude 3、Whisper；
评估工具：Hugging Face Evaluate、OpenAI Moderation、FactCheck；
安全合规：阿里云内容安全、腾讯云内容审核。

13.2 学习资源

书籍：《Prompt Engineering for Developers》（Andrew Ng）、《The Art of Prompt Design》（OpenAI）；
课程：Coursera《Prompt Engineering for AI》、DeepLearning.AI《ChatGPT Prompt Engineering》；
博客：OpenAI Blog、LangChain Blog、Towards Data Science（Prompt Engineering专栏）；
社区：Reddit r/PromptEngineering、GitHub Prompt Engineering Repositories。