响应合成器：ResponseSynthesizer生成高质量答案

最新推荐文章于 2025-12-02 21:20:38 发布

原创最新推荐文章于 2025-12-02 21:20:38 发布 · 682 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#java #网络 #数据库 #响应合成器 #生成高质量答案

摘要

ResponseSynthesizer是LlamaIndex中负责将检索到的信息合成为最终回答的核心组件，它位于整个RAG流程的末端，负责将经过处理的节点信息转化为自然语言响应。本文将深入探讨ResponseSynthesizer的工作原理、内置类型、配置选项以及在实际应用中的使用方法，帮助开发者更好地理解和应用这一关键组件。

正文

1. 引言

在前面的博客中，我们详细介绍了Postprocessor对检索结果的优化处理。经过Retriever检索和Postprocessor优化后的节点信息，最终需要通过ResponseSynthesizer转化为用户可以理解的自然语言回答。ResponseSynthesizer作为LlamaIndex架构中的最后一个关键环节，其质量直接决定了用户最终获得的答案质量。理解ResponseSynthesizer的工作原理和使用方法，对于构建高质量的LLM应用至关重要。

2. ResponseSynthesizer基础概念

2.1 什么是ResponseSynthesizer

ResponseSynthesizer是LlamaIndex中负责将检索到的节点信息合成为自然语言响应的组件。它接收来自Postprocessor的优化节点列表，通过特定的合成策略和提示词模板，利用大语言模型生成最终的回答。

2.2 ResponseSynthesizer的核心特点

合成专注：专门负责信息合成和回答生成
模式多样：支持多种响应合成模式以适应不同场景
可配置性：提供丰富的配置选项以满足不同需求
可扩展性：支持自定义实现以适应特定场景
质量控制：通过多种机制确保生成答案的质量

3. ResponseSynthesizer工作原理

3.1 ResponseSynthesizer架构

ResponseSynthesizer在LlamaIndex整体架构中的位置如下：

信息接收：接收来自Postprocessor的优化节点列表
策略应用：应用特定的合成策略
提示构建：基于策略构建合适的提示词
LLM调用：调用大语言模型生成回答
结果返回：将生成的回答返回给用户

3.2 ResponseSynthesizer工作流程

4. 内置ResponseSynthesizer类型

4.1 CompactAndRefine

CompactAndRefine是默认的响应合成模式，它首先将所有节点信息压缩成一个紧凑的上下文，然后逐步细化生成回答：

from llama_index.core.response_synthesizers import ResponseMode

# 使用CompactAndRefine模式
query_engine = index.as_query_engine(
    response_mode=ResponseMode.COMPACT_AND_REFINE
)

# 执行查询
response = query_engine.query("人工智能的发展历程是怎样的？")
print(response)

4.2 TreeSummarize

TreeSummarize通过树形结构逐步汇总节点信息，适合处理大量节点：

# 使用TreeSummarize模式
query_engine = index.as_query_engine(
    response_mode=ResponseMode.TREE_SUMMARIZE
)

# 执行查询
response = query_engine.query("机器学习的主要算法有哪些？")
print(response)

4.3 SimpleSummarize

SimpleSummarize将所有节点信息简单汇总后生成回答：

# 使用SimpleSummarize模式
query_engine = index.as_query_engine(
    response_mode=ResponseMode.SIMPLE_SUMMARIZE
)

# 执行查询
response = query_engine.query("深度学习的应用领域")
print(response)

4.4 Refine

Refine模式逐个处理节点信息，逐步完善回答：

# 使用Refine模式
query_engine = index.as_query_engine(
    response_mode=ResponseMode.REFINE
)

# 执行查询
response = query_engine.query("自然语言处理的技术进展")
print(response)

4.5 Compact

Compact模式将节点信息压缩后一次性生成回答：

# 使用Compact模式
query_engine = index.as_query_engine(
    response_mode=ResponseMode.COMPACT
)

# 执行查询
response = query_engine.query("计算机视觉的发展现状")
print(response)

5. ResponseSynthesizer配置选项

5.1 自定义提示词模板

from llama_index.core.prompts import PromptTemplate

# 创建自定义提示词模板
custom_qa_prompt = PromptTemplate(
    "请基于以下信息回答问题，要求使用中文回答：\n"
    "---------------------\n"
    "{context_str}\n"
    "---------------------\n"
    "问题: {query_str}\n"
    "回答: "
)

# 在响应合成器中使用自定义模板
query_engine = index.as_query_engine(
    text_qa_template=custom_qa_prompt
)

# 执行查询
response = query_engine.query("什么是人工智能？")

5.2 配置不同响应模式

from llama_index.core.response_synthesizers import ResponseMode

# 配置不同的响应模式
response_configs = {
    "compact": {
        "response_mode": ResponseMode.COMPACT,
        "verbose": True
    },
    "tree_summarize": {
        "response_mode": ResponseMode.TREE_SUMMARIZE,
        "use_async": True
    },
    "refine": {
        "response_mode": ResponseMode.REFINE,
        "refine_template": custom_refine_prompt  # 自定义细化模板
    },
    "compact_and_refine": {
        "response_mode": ResponseMode.COMPACT_AND_REFINE,
        "streaming": True  # 启用流式响应
    }
}

# 根据需求选择配置
selected_config = response_configs["compact_and_refine"]
query_engine = index.as_query_engine(**selected_config)

6. 自定义ResponseSynthesizer

6.1 继承BaseSynthesizer

from llama_index.core.response_synthesizers import BaseSynthesizer
from llama_index.core.base.response.schema import Response
from typing import List

class CustomResponseSynthesizer(BaseSynthesizer):
    """自定义响应合成器"""
    
    def __init__(self, llm, custom_prompt_template=None, formatting_func=None):
        self.llm = llm
        self.custom_prompt_template = custom_prompt_template or self._default_prompt()
        self.formatting_func = formatting_func or self._default_formatter()
        super().__init__()
    
    def _default_prompt(self):
        """默认提示词模板"""
        return (
            "基于以下信息回答问题，要求：\n"
            "1. 回答准确完整\n"
            "2. 使用中文\n"
            "3. 条理清晰\n"
            "4. 如信息不足，请说明\n\n"
            "信息：{context_str}\n\n"
            "问题：{query_str}\n\n"
            "回答："
        )
    
    def _default_formatter(self):
        """默认格式化函数"""
        def formatter(response_text):
            # 简单的格式化处理
            lines = response_text.strip().split('\n')
            formatted_lines = []
            for line in lines:
                if line.strip():
                    formatted_lines.append(line.strip())
            return '\n'.join(formatted_lines)
        return formatter
    
    def synthesize(self, query_bundle, nodes, **kwargs):
        """实现合成逻辑"""
        # 合并节点内容
        context_str = self._merge_context(nodes)
        
        # 构建提示词
        prompt = self.custom_prompt_template.format(
            context_str=context_str,
            query_str=query_bundle.query_str
        )
        
        # 调用LLM生成回答
        response_text = self.llm.complete(prompt).text
        
        # 格式化回答
        formatted_response = self.formatting_func(response_text)
        
        return Response(
            response=formatted_response,
            source_nodes=nodes
        )
    
    def _merge_context(self, nodes):
        """合并上下文信息"""
        context_parts = []
        for node in nodes:
            # 添加节点文本和元数据
            part = f"内容：{node.node.text}"
            if node.node.metadata:
                meta_str = ", ".join([f"{k}:{v}" for k, v in node.node.metadata.items()])
                part += f"\n元数据：{meta_str}"
            context_parts.append(part)
        
        return "\n\n".join(context_parts)
    
    async def asynthesize(self, query_bundle, nodes, **kwargs):
        """异步合成实现"""
        context_str = self._merge_context(nodes)
        prompt = self.custom_prompt_template.format(
            context_str=context_str,
            query_str=query_bundle.query_str
        )
        response_text = (await self.llm.acomplete(prompt)).text
        formatted_response = self.formatting_func(response_text)
        
        return Response(
            response=formatted_response,
            source_nodes=nodes
        )

# 使用自定义响应合成器
from llama_index.core import Settings
custom_synthesizer = CustomResponseSynthesizer(Settings.llm)
query_engine = index.as_query_engine(response_synthesizer=custom_synthesizer)

6.2 基于结构化输出的合成器

class StructuredResponseSynthesizer(BaseSynthesizer):
    """结构化响应合成器"""
    
    def __init__(self, llm, output_format="json"):
        self.llm = llm
        self.output_format = output_format
        super().__init__()
    
    def synthesize(self, query_bundle, nodes, **kwargs):
        """生成结构化响应"""
        # 合并上下文
        context_str = self._merge_context(nodes)
        
        # 根据输出格式构建提示词
        if self.output_format == "json":
            prompt = self._build_json_prompt(context_str, query_bundle.query_str)
        elif self.output_format == "xml":
            prompt = self._build_xml_prompt(context_str, query_bundle.query_str)
        else:
            prompt = self._build_yaml_prompt(context_str, query_bundle.query_str)
        
        # 生成响应
        response_text = self.llm.complete(prompt).text
        
        # 解析结构化响应
        structured_response = self._parse_structured_response(response_text)
        
        return Response(
            response=structured_response,
            source_nodes=nodes
        )
    
    def _build_json_prompt(self, context_str, query_str):
        """构建JSON格式提示词"""
        return f"""
        基于以下信息回答问题，并以严格的JSON格式返回结果：
        
        信息：
        {context_str}
        
        问题：
        {query_str}
        
        要求：
        1. 必须返回有效的JSON格式
        2. 包含answer, confidence, sources字段
        3. 使用中文回答
        
        返回格式示例：
        {{
            "answer": "回答内容",
            "confidence": 0.95,
            "sources": ["来源1", "来源2"]
        }}
        
        JSON结果：
        """
    
    def _build_xml_prompt(self, context_str, query_str):
        """构建XML格式提示词"""
        return f"""
        基于以下信息回答问题，并以严格的XML格式返回结果：
        
        信息：
        {context_str}
        
        问题：
        {query_str}
        
        要求：
        1. 必须返回有效的XML格式
        2. 包含answer, confidence, sources元素
        3. 使用中文回答
        
        返回格式示例：
        <response>
            <answer>回答内容</answer>
            <confidence>0.95</confidence>
            <sources>
                <source>来源1</source>
                <source>来源2</source>
            </sources>
        </response>
        
        XML结果：
        """
    
    def _build_yaml_prompt(self, context_str, query_str):
        """构建YAML格式提示词"""
        return f"""
        基于以下信息回答问题，并以严格的YAML格式返回结果：
        
        信息：
        {context_str}
        
        问题：
        {query_str}
        
        要求：
        1. 必须返回有效的YAML格式
        2. 包含answer, confidence, sources字段
        3. 使用中文回答
        
        返回格式示例：
        answer: 回答内容
        confidence: 0.95
        sources:
          - 来源1
          - 来源2
        
        YAML结果：
        """
    
    def _merge_context(self, nodes):
        """合并上下文信息"""
        context_parts = []
        for i, node in enumerate(nodes):
            part = f"文档{i+1}：{node.node.text[:500]}..."  # 限制长度
            context_parts.append(part)
        return "\n\n".join(context_parts)
    
    def _parse_structured_response(self, response_text):
        """解析结构化响应"""
        try:
            if self.output_format == "json":
                import json
                return json.loads(response_text)
            elif self.output_format == "xml":
                import xml.etree.ElementTree as ET
                root = ET.fromstring(response_text)
                result = {}
                for child in root:
                    if child.tag == "sources":
                        result[child.tag] = [source.text for source in child]
                    else:
                        result[child.tag] = child.text
                return result
            else:  # yaml
                import yaml
                return yaml.safe_load(response_text)
        except Exception as e:
            # 解析失败时返回原始文本
            return {"error": f"解析失败: {str(e)}", "raw_response": response_text}

# 使用结构化响应合成器
# json_synthesizer = StructuredResponseSynthesizer(Settings.llm, output_format="json")
# query_engine = index.as_query_engine(response_synthesizer=json_synthesizer)

7. 实际应用案例

7.1 多语言响应合成器

class MultilingualResponseSynthesizer(BaseSynthesizer):
    """多语言响应合成器"""
    
    def __init__(self, llm, language_detector=None):
        self.llm = llm
        self.language_detector = language_detector or self._default_language_detector()
        self.language_prompts = self._init_language_prompts()
        super().__init__()
    
    def _default_language_detector(self):
        """默认语言检测器"""
        def detector(text):
            # 简化的语言检测
            import re
            chinese_chars = len(re.findall(r'[\u4e00-\u9fff]', text))
            english_chars = len(re.findall(r'[a-zA-Z]', text))
            
            if chinese_chars > english_chars:
                return "zh"
            else:
                return "en"
        return detector
    
    def _init_language_prompts(self):
        """初始化多语言提示词"""
        return {
            "zh": {
                "qa": "请基于以下信息用中文回答问题：\n信息：{context_str}\n问题：{query_str}\n回答：",
                "summary": "请用中文总结以下信息：\n{context_str}\n总结："
            },
            "en": {
                "qa": "Please answer the question in English based on the following information:\nInformation: {context_str}\nQuestion: {query_str}\nAnswer:",
                "summary": "Please summarize the following information in English:\n{context_str}\nSummary:"
            },
            "ja": {
                "qa": "以下の情報に基づいて日本語で質問に答えてください：\n情報：{context_str}\n質問：{query_str}\n回答：",
                "summary": "以下の情報を日本語で要約してください：\n{context_str}\n要約："
            }
        }
    
    def synthesize(self, query_bundle, nodes, **kwargs):
        """多语言合成"""
        # 检测查询语言
        query_language = self.language_detector(query_bundle.query_str)
        
        # 如果需要，检测期望的回答语言
        target_language = kwargs.get("target_language", query_language)
        
        # 合并上下文
        context_str = self._merge_context(nodes)
        
        # 选择合适的提示词
        prompt_template = self.language_prompts.get(
            target_language, 
            self.language_prompts["en"]
        )["qa"]
        
        # 构建提示词
        prompt = prompt_template.format(
            context_str=context_str,
            query_str=query_bundle.query_str
        )
        
        # 生成响应
        response_text = self.llm.complete(prompt).text
        
        # 如果需要翻译
        if target_language != query_language:
            response_text = self._translate_response(
                response_text, query_language, target_language
            )
        
        return Response(
            response=response_text,
            source_nodes=nodes
        )
    
    def _merge_context(self, nodes):
        """合并上下文"""
        # 根据节点的语言属性合并
        chinese_contexts = []
        english_contexts = []
        
        for node in nodes:
            node_text = node.node.text
            node_language = self.language_detector(node_text)
            
            if node_language == "zh":
                chinese_contexts.append(node_text)
            else:
                english_contexts.append(node_text)
        
        # 优先使用与查询语言相同的上下文
        if len(chinese_contexts) > len(english_contexts):
            return "\n\n".join(chinese_contexts[:3])  # 限制数量
        else:
            return "\n\n".join(english_contexts[:3])
    
    def _translate_response(self, text, source_lang, target_lang):
        """翻译响应"""
        # 简化实现，实际应用中可以调用翻译API
        if source_lang == "zh" and target_lang == "en":
            return f"[Translated from Chinese] {text}"
        elif source_lang == "en" and target_lang == "zh":
            return f"[翻译自英文] {text}"
        else:
            return text  # 无法翻译时返回原文

# 使用多语言响应合成器
# multilingual_synthesizer = MultilingualResponseSynthesizer(Settings.llm)
# query_engine = index.as_query_engine(response_synthesizer=multilingual_synthesizer)

7.2 专业领域响应合成器

class DomainSpecificResponseSynthesizer(BaseSynthesizer):
    """专业领域响应合成器"""
    
    def __init__(self, llm, domain="general"):
        self.llm = llm
        self.domain = domain
        self.domain_configs = self._init_domain_configs()
        super().__init__()
    
    def _init_domain_configs(self):
        """初始化领域配置"""
        return {
            "medical": {
                "prompt_template": (
                    "您是一名医学专家，请基于以下医学文献回答问题：\n\n"
                    "文献信息：{context_str}\n\n"
                    "问题：{query_str}\n\n"
                    "要求：\n"
                    "1. 回答必须基于提供的文献信息\n"
                    "2. 使用专业医学术语\n"
                    "3. 如信息不足，请明确说明\n"
                    "4. 必要时提供参考文献\n\n"
                    "专业回答："
                ),
                "confidence_threshold": 0.8,
                "citation_required": True
            },
            "legal": {
                "prompt_template": (
                    "您是一名法律专家，请基于以下法律条文和案例回答问题：\n\n"
                    "法律信息：{context_str}\n\n"
                    "问题：{query_str}\n\n"
                    "要求：\n"
                    "1. 引用相关法律条文\n"
                    "2. 分析法律适用性\n"
                    "3. 保持客观中立\n"
                    "4. 如不确定，请说明\n\n"
                    "法律分析："
                ),
                "confidence_threshold": 0.9,
                "citation_required": True
            },
            "technical": {
                "prompt_template": (
                    "您是一名技术专家，请基于以下技术文档回答问题：\n\n"
                    "技术信息：{context_str}\n\n"
                    "问题：{query_str}\n\n"
                    "要求：\n"
                    "1. 提供准确的技术细节\n"
                    "2. 包含必要的代码示例\n"
                    "3. 说明实现步骤\n"
                    "4. 指出注意事项\n\n"
                    "技术解答："
                ),
                "confidence_threshold": 0.7,
                "citation_required": False
            },
            "general": {
                "prompt_template": (
                    "请基于以下信息回答问题：\n\n"
                    "信息：{context_str}\n\n"
                    "问题：{query_str}\n\n"
                    "回答："
                ),
                "confidence_threshold": 0.5,
                "citation_required": False
            }
        }
    
    def synthesize(self, query_bundle, nodes, **kwargs):
        """领域特定合成"""
        # 获取领域配置
        domain_config = self.domain_configs.get(self.domain, self.domain_configs["general"])
        
        # 合并上下文
        context_str = self._merge_context(nodes)
        
        # 构建提示词
        prompt = domain_config["prompt_template"].format(
            context_str=context_str,
            query_str=query_bundle.query_str
        )
        
        # 生成响应
        response_text = self.llm.complete(prompt).text
        
        # 后处理
        processed_response = self._postprocess_response(
            response_text, nodes, domain_config
        )
        
        return Response(
            response=processed_response,
            source_nodes=nodes
        )
    
    def _merge_context(self, nodes):
        """合并上下文"""
        # 根据领域特点合并上下文
        if self.domain == "medical":
            # 医学领域优先合并最新的研究文献
            sorted_nodes = sorted(
                nodes, 
                key=lambda x: x.node.metadata.get("publication_date", ""), 
                reverse=True
            )
            return "\n\n".join([node.node.text[:800] for node in sorted_nodes[:5]])
        elif self.domain == "legal":
            # 法律领域优先合并权威的法律条文
            return "\n\n".join([node.node.text[:1000] for node in nodes[:3]])
        else:
            # 其他领域合并所有相关信息
            return "\n\n".join([node.node.text[:500] for node in nodes[:5]])
    
    def _postprocess_response(self, response_text, nodes, domain_config):
        """后处理响应"""
        processed_text = response_text
        
        # 如果需要引用，则添加引用信息
        if domain_config["citation_required"]:
            citations = self._generate_citations(nodes)
            if citations:
                processed_text += f"\n\n参考资料：\n{citations}"
        
        # 添加置信度信息
        confidence = self._calculate_confidence(response_text, nodes)
        if confidence < domain_config["confidence_threshold"]:
            processed_text += f"\n\n[置信度较低：{confidence:.2f}，建议进一步核实]"
        
        return processed_text
    
    def _generate_citations(self, nodes):
        """生成引用信息"""
        citations = []
        for i, node in enumerate(nodes[:5]):  # 最多引用前5个来源
            source = node.node.metadata.get("source", "未知来源")
            citations.append(f"[{i+1}] {source}")
        return "\n".join(citations)
    
    def _calculate_confidence(self, response_text, nodes):
        """计算响应置信度"""
        # 简化的置信度计算
        # 基于节点相关性和响应长度
        avg_node_score = sum(node.score for node in nodes) / len(nodes) if nodes else 0
        response_length_factor = min(1.0, len(response_text) / 500.0)
        
        confidence = (avg_node_score + response_length_factor) / 2
        return min(1.0, confidence)

# 使用专业领域响应合成器
# medical_synthesizer = DomainSpecificResponseSynthesizer(Settings.llm, domain="medical")
# query_engine = index.as_query_engine(response_synthesizer=medical_synthesizer)

7.3 交互式响应合成器

class InteractiveResponseSynthesizer(BaseSynthesizer):
    """交互式响应合成器"""
    
    def __init__(self, llm, user_feedback_handler=None):
        self.llm = llm
        self.user_feedback_handler = user_feedback_handler or self._default_feedback_handler()
        self.conversation_history = []
        super().__init__()
    
    def _default_feedback_handler(self):
        """默认反馈处理器"""
        def handler(feedback, response):
            # 简化的反馈处理
            print(f"收到反馈：{feedback}")
            return {"acknowledged": True}
        return handler
    
    def synthesize(self, query_bundle, nodes, **kwargs):
        """交互式合成"""
        # 添加到对话历史
        self.conversation_history.append({
            "type": "query",
            "content": query_bundle.query_str,
            "timestamp": self._get_timestamp()
        })
        
        # 合并上下文
        context_str = self._merge_context(nodes)
        
        # 构建交互式提示词
        prompt = self._build_interactive_prompt(
            context_str, 
            query_bundle.query_str,
            self.conversation_history
        )
        
        # 生成响应
        response_text = self.llm.complete(prompt).text
        
        # 添加响应到历史
        self.conversation_history.append({
            "type": "response",
            "content": response_text,
            "timestamp": self._get_timestamp()
        })
        
        # 构建交互式响应
        interactive_response = self._build_interactive_response(
            response_text, nodes
        )
        
        return Response(
            response=interactive_response,
            source_nodes=nodes
        )
    
    def _merge_context(self, nodes):
        """合并上下文"""
        # 根据节点相关性排序
        sorted_nodes = sorted(nodes, key=lambda x: x.score, reverse=True)
        return "\n\n".join([f"[相关度: {node.score:.2f}] {node.node.text[:300]}" 
                           for node in sorted_nodes[:5]])
    
    def _build_interactive_prompt(self, context_str, query_str, history):
        """构建交互式提示词"""
        # 构建对话历史
        history_str = "\n".join([
            f"{item['type'].upper()}: {item['content']}" 
            for item in history[-5:]  # 最近5轮对话
        ])
        
        return f"""
        您是一个智能助手，请基于以下信息和对话历史回答用户问题：
        
        相关信息：
        {context_str}
        
        对话历史：
        {history_str}
        
        当前问题：
        {query_str}
        
        要求：
        1. 回答要准确、简洁
        2. 可以提出进一步的问题以澄清用户需求
        3. 如果需要更多信息，可以询问用户
        4. 使用友好的语调
        
        智能回答：
        """
    
    def _build_interactive_response(self, response_text, nodes):
        """构建交互式响应"""
        # 解析响应，检查是否包含交互元素
        if "您是否想了解" in response_text or "您是否有其他问题" in response_text:
            # 包含交互元素的响应
            return {
                "type": "interactive",
                "content": response_text,
                "suggestions": self._extract_suggestions(response_text),
                "follow_up": self._generate_follow_up_questions(nodes)
            }
        else:
            # 普通响应
            return {
                "type": "standard",
                "content": response_text
            }
    
    def _extract_suggestions(self, response_text):
        """提取建议"""
        # 简化的建议提取
        suggestions = []
        if "您是否想了解" in response_text:
            suggestions.append("了解更多相关主题")
        if "您可以查看" in response_text:
            suggestions.append("查看详细资料")
        return suggestions
    
    def _generate_follow_up_questions(self, nodes):
        """生成后续问题"""
        # 基于节点内容生成后续问题
        follow_ups = []
        for node in nodes[:2]:  # 基于前2个节点
            # 简化的后续问题生成
            topic = node.node.metadata.get("topic", "相关主题")
            follow_ups.append(f"关于{topic}，您还有什么想了解的吗？")
        return follow_ups
    
    def _get_timestamp(self):
        """获取时间戳"""
        from datetime import datetime
        return datetime.now().isoformat()
    
    def handle_user_feedback(self, feedback, response):
        """处理用户反馈"""
        return self.user_feedback_handler(feedback, response)

# 使用交互式响应合成器
# interactive_synthesizer = InteractiveResponseSynthesizer(Settings.llm)
# query_engine = index.as_query_engine(response_synthesizer=interactive_synthesizer)

8. 性能优化策略

8.1 缓存机制

from functools import lru_cache
import hashlib

class CachedResponseSynthesizer(BaseSynthesizer):
    """带缓存的响应合成器"""
    
    def __init__(self, base_synthesizer, cache_size=100):
        self.base_synthesizer = base_synthesizer
        self.cache_size = cache_size
        self._response_cache = {}
        super().__init__()
    
    def synthesize(self, query_bundle, nodes, **kwargs):
        """带缓存的合成"""
        # 生成缓存键
        cache_key = self._generate_cache_key(query_bundle, nodes)
        
        # 检查缓存
        if cache_key in self._response_cache:
            print("从缓存返回响应")
            return self._response_cache[cache_key]
        
        # 执行实际合成
        response = self.base_synthesizer.synthesize(query_bundle, nodes, **kwargs)
        
        # 存储到缓存
        self._response_cache[cache_key] = response
        
        # 限制缓存大小
        if len(self._response_cache) > self.cache_size:
            # 移除最旧的项
            oldest_key = next(iter(self._response_cache))
            del self._response_cache[oldest_key]
        
        return response
    
    def _generate_cache_key(self, query_bundle, nodes):
        """生成缓存键"""
        # 基于查询和节点信息生成哈希键
        key_data = {
            "query": query_bundle.query_str,
            "node_ids": [node.node.node_id for node in nodes],
            "node_scores": [node.score for node in nodes]
        }
        
        key_string = str(sorted(key_data.items()))
        return hashlib.md5(key_string.encode()).hexdigest()
    
    async def asynthesize(self, query_bundle, nodes, **kwargs):
        """异步缓存合成"""
        cache_key = self._generate_cache_key(query_bundle, nodes)
        
        if cache_key in self._response_cache:
            print("从缓存返回响应(异步)")
            return self._response_cache[cache_key]
        
        response = await self.base_synthesizer.asynthesize(query_bundle, nodes, **kwargs)
        self._response_cache[cache_key] = response
        
        if len(self._response_cache) > self.cache_size:
            oldest_key = next(iter(self._response_cache))
            del self._response_cache[oldest_key]
        
        return response

# 使用缓存响应合成器
# cached_synthesizer = CachedResponseSynthesizer(
#     base_synthesizer=original_synthesizer,
#     cache_size=50
# )
# query_engine = index.as_query_engine(response_synthesizer=cached_synthesizer)

8.2 流式响应处理

class StreamingResponseSynthesizer(BaseSynthesizer):
    """流式响应合成器"""
    
    def __init__(self, base_synthesizer):
        self.base_synthesizer = base_synthesizer
        super().__init__()
    
    def synthesize(self, query_bundle, nodes, **kwargs):
        """同步合成（不支持流式）"""
        return self.base_synthesizer.synthesize(query_bundle, nodes, **kwargs)
    
    async def asynthesize(self, query_bundle, nodes, **kwargs):
        """异步流式合成"""
        # 启用流式处理
        kwargs["streaming"] = True
        
        # 使用基础合成器的异步方法
        response = await self.base_synthesizer.asynthesize(query_bundle, nodes, **kwargs)
        
        # 如果响应支持流式处理，则返回流式响应
        if hasattr(response, 'async_response_gen'):
            return StreamingResponse(response.async_response_gen)
        else:
            return response

class StreamingResponse:
    """流式响应类"""
    
    def __init__(self, response_generator):
        self.response_generator = response_generator
    
    async def async_read(self):
        """异步读取响应"""
        full_response = ""
        async for chunk in self.response_generator:
            full_response += chunk
            yield chunk
        return full_response
    
    def __str__(self):
        return "StreamingResponse object"

# 使用流式响应合成器
# streaming_synthesizer = StreamingResponseSynthesizer(base_synthesizer)
# query_engine = index.as_query_engine(
#     response_synthesizer=streaming_synthesizer,
#     streaming=True
# )

9. 故障排除和最佳实践

9.1 常见问题及解决方案

生成响应质量不佳：

class QualityEnhancedResponseSynthesizer(BaseSynthesizer):
    """质量增强响应合成器"""
    
    def __init__(self, llm, quality_checker=None):
        self.llm = llm
        self.quality_checker = quality_checker or self._default_quality_checker()
        super().__init__()
    
    def _default_quality_checker(self):
        """默认质量检查器"""
        def checker(response_text, nodes):
            issues = []
            
            # 检查响应长度
            if len(response_text) < 50:
                issues.append("响应过短")
            
            # 检查是否基于上下文
            context_words = set()
            for node in nodes:
                context_words.update(node.node.text.lower().split())
            
            response_words = set(response_text.lower().split())
            overlap = len(context_words.intersection(response_words))
            if overlap < 3:  # 至少应有3个关键词重叠
                issues.append("可能未充分使用上下文信息")
            
            # 检查是否回答了问题
            if "不知道" in response_text or "不确定" in response_text:
                issues.append("响应缺乏确定性")
            
            return issues
        return checker
    
    def synthesize(self, query_bundle, nodes, **kwargs):
        """质量增强合成"""
        # 首次生成
        response = self._generate_initial_response(query_bundle, nodes)
        
        # 检查质量
        quality_issues = self.quality_checker(response.response, nodes)
        
        # 如果有问题，尝试改进
        if quality_issues:
            print(f"检测到质量问题：{quality_issues}，正在尝试改进...")
            response = self._improve_response(response, query_bundle, nodes, quality_issues)
        
        return response
    
    def _generate_initial_response(self, query_bundle, nodes):
        """生成初始响应"""
        context_str = "\n\n".join([node.node.text[:500] for node in nodes[:5]])
        
        prompt = f"""
        请基于以下信息详细回答问题：
        
        信息：
        {context_str}
        
        问题：
        {query_bundle.query_str}
        
        要求：
        1. 回答必须基于提供的信息
        2. 回答详细完整
        3. 使用中文
        4. 条理清晰
        
        详细回答：
        """
        
        response_text = self.llm.complete(prompt).text
        
        return Response(
            response=response_text,
            source_nodes=nodes
        )
    
    def _improve_response(self, response, query_bundle, nodes, issues):
        """改进响应"""
        context_str = "\n\n".join([node.node.text[:500] for node in nodes[:5]])
        
        improvement_prompt = f"""
        以下回答存在一些问题：{', '.join(issues)}
        
        原始信息：
        {context_str}
        
        原始问题：
        {query_bundle.query_str}
        
        不够好的回答：
        {response.response}
        
        请提供一个改进的、高质量的回答，要求：
        1. 解决上述问题
        2. 回答更加详细和准确
        3. 基于提供的信息
        4. 使用中文
        
        改进的回答：
        """
        
        improved_text = self.llm.complete(improvement_prompt).text
        
        return Response(
            response=improved_text,
            source_nodes=nodes
        )

# 使用质量增强响应合成器
# quality_synthesizer = QualityEnhancedResponseSynthesizer(Settings.llm)
# query_engine = index.as_query_engine(response_synthesizer=quality_synthesizer)

响应生成时间过长：

import asyncio
import time

class TimeoutAwareResponseSynthesizer(BaseSynthesizer):
    """超时感知响应合成器"""
    
    def __init__(self, base_synthesizer, timeout=10.0):
        self.base_synthesizer = base_synthesizer
        self.timeout = timeout
        super().__init__()
    
    async def asynthesize(self, query_bundle, nodes, **kwargs):
        """带超时的异步合成"""
        try:
            # 创建超时任务
            response_task = asyncio.create_task(
                self.base_synthesizer.asynthesize(query_bundle, nodes, **kwargs)
            )
            
            # 等待响应或超时
            response = await asyncio.wait_for(response_task, timeout=self.timeout)
            return response
        
        except asyncio.TimeoutError:
            print(f"响应生成超时({self.timeout}秒)，返回简化回答...")
            return self._generate_timeout_response(query_bundle)
        
        except Exception as e:
            print(f"响应生成出错：{str(e)}")
            return self._generate_error_response(query_bundle, str(e))
    
    def _generate_timeout_response(self, query_bundle):
        """生成超时响应"""
        timeout_response = f"""
        抱歉，问题"{query_bundle.query_str}"需要更多时间来处理。
        请尝试：
        1. 简化问题
        2. 稍后再试
        3. 联系系统管理员
        """
        
        return Response(
            response=timeout_response,
            source_nodes=[]
        )
    
    def _generate_error_response(self, query_bundle, error_msg):
        """生成错误响应"""
        error_response = f"""
        处理问题"{query_bundle.query_str}"时发生错误：
        {error_msg}
        
        建议：
        1. 检查问题表述
        2. 稍后再试
        3. 联系技术支持
        """
        
        return Response(
            response=error_response,
            source_nodes=[]
        )

# 使用超时感知响应合成器
# timeout_synthesizer = TimeoutAwareResponseSynthesizer(
#     base_synthesizer=original_synthesizer,
#     timeout=5.0
# )
# query_engine = index.as_query_engine(response_synthesizer=timeout_synthesizer)

9.2 最佳实践建议

合理选择响应模式：

def select_optimal_response_mode(doc_length, node_count, query_type):
    """选择最优响应模式"""
    if doc_length < 1000 and node_count < 5:
        # 短文档，少量节点
        return ResponseMode.COMPACT
    elif doc_length < 5000 and node_count < 10:
        # 中等文档，中等节点数
        return ResponseMode.COMPACT_AND_REFINE
    elif node_count < 20:
        # 节点数适中
        return ResponseMode.REFINE
    else:
        # 大量节点
        return ResponseMode.TREE_SUMMARIZE

# 使用示例
# optimal_mode = select_optimal_response_mode(
#     doc_length=3000,
#     node_count=15,
#     query_type="analytical"
# )
# query_engine = index.as_query_engine(response_mode=optimal_mode)

监控和日志记录：

import logging
import time

class MonitoredResponseSynthesizer(BaseSynthesizer):
    """监控响应合成器"""
    
    def __init__(self, base_synthesizer, logger_name="ResponseSynthesizer"):
        self.base_synthesizer = base_synthesizer
        self.logger = logging.getLogger(logger_name)
        self.stats = {
            "total_responses": 0,
            "total_time": 0.0,
            "avg_time": 0.0
        }
        super().__init__()
    
    def synthesize(self, query_bundle, nodes, **kwargs):
        """带监控的合成"""
        start_time = time.time()
        self.stats["total_responses"] += 1
        
        try:
            response = self.base_synthesizer.synthesize(query_bundle, nodes, **kwargs)
            
            elapsed_time = time.time() - start_time
            self.stats["total_time"] += elapsed_time
            self.stats["avg_time"] = self.stats["total_time"] / self.stats["total_responses"]
            
            self.logger.info(
                f"响应生成成功 | 查询: {query_bundle.query_str[:30]}... | "
                f"节点数: {len(nodes)} | 耗时: {elapsed_time:.3f}s"
            )
            
            return response
        
        except Exception as e:
            elapsed_time = time.time() - start_time
            self.logger.error(
                f"响应生成失败 | 查询: {query_bundle.query_str[:30]}... | "
                f"耗时: {elapsed_time:.3f}s | 错误: {str(e)}"
            )
            
            raise
    
    async def asynthesize(self, query_bundle, nodes, **kwargs):
        """异步监控合成"""
        start_time = time.time()
        self.stats["total_responses"] += 1
        
        try:
            response = await self.base_synthesizer.asynthesize(query_bundle, nodes, **kwargs)
            
            elapsed_time = time.time() - start_time
            self.stats["total_time"] += elapsed_time
            self.stats["avg_time"] = self.stats["total_time"] / self.stats["total_responses"]
            
            self.logger.info(
                f"异步响应生成成功 | 查询: {query_bundle.query_str[:30]}... | "
                f"节点数: {len(nodes)} | 耗时: {elapsed_time:.3f}s"
            )
            
            return response
        
        except Exception as e:
            elapsed_time = time.time() - start_time
            self.logger.error(
                f"异步响应生成失败 | 查询: {query_bundle.query_str[:30]}... | "
                f"耗时: {elapsed_time:.3f}s | 错误: {str(e)}"
            )
            
            raise
    
    def get_stats(self):
        """获取统计信息"""
        return self.stats

# 配置日志
logging.basicConfig(level=logging.INFO)

# 使用监控响应合成器
# monitored_synthesizer = MonitoredResponseSynthesizer(base_synthesizer)
# query_engine = index.as_query_engine(response_synthesizer=monitored_synthesizer)

10. 高级功能探索

10.1 多模态响应合成器

class MultimodalResponseSynthesizer(BaseSynthesizer):
    """多模态响应合成器"""
    
    def __init__(self, llm, image_processor=None):
        self.llm = llm
        self.image_processor = image_processor
        super().__init__()
    
    def synthesize(self, query_bundle, nodes, **kwargs):
        """多模态合成"""
        # 分离文本节点和图像节点
        text_nodes = []
        image_nodes = []
        
        for node in nodes:
            if hasattr(node.node, 'image'):
                image_nodes.append(node)
            else:
                text_nodes.append(node)
        
        # 合成响应
        if image_nodes:
            response = self._synthesize_with_images(
                query_bundle, text_nodes, image_nodes
            )
        else:
            response = self._synthesize_text_only(
                query_bundle, text_nodes
            )
        
        return response
    
    def _synthesize_text_only(self, query_bundle, nodes):
        """纯文本合成"""
        context_str = "\n\n".join([node.node.text[:500] for node in nodes[:5]])
        
        prompt = f"""
        请基于以下信息回答问题：
        
        信息：
        {context_str}
        
        问题：
        {query_bundle.query_str}
        
        回答：
        """
        
        response_text = self.llm.complete(prompt).text
        
        return Response(
            response=response_text,
            source_nodes=nodes
        )
    
    def _synthesize_with_images(self, query_bundle, text_nodes, image_nodes):
        """带图像合成"""
        # 处理文本信息
        text_context = "\n\n".join([node.node.text[:300] for node in text_nodes[:3]])
        
        # 处理图像信息（简化处理）
        image_descriptions = []
        for i, node in enumerate(image_nodes[:3]):
            if hasattr(node.node, 'image_description'):
                image_descriptions.append(f"图{i+1}: {node.node.image_description}")
            else:
                image_descriptions.append(f"图{i+1}: [图像]")
        
        # 构建多模态提示词
        prompt = f"""
        请基于以下文本和图像信息回答问题：
        
        文本信息：
        {text_context}
        
        图像信息：
        {'; '.join(image_descriptions)}
        
        问题：
        {query_bundle.query_str}
        
        回答（请结合文本和图像信息）：
        """
        
        response_text = self.llm.complete(prompt).text
        
        # 构建多模态响应
        multimodal_response = {
            "text": response_text,
            "images": [node.node.image for node in image_nodes[:3]],
            "image_descriptions": image_descriptions
        }
        
        return Response(
            response=multimodal_response,
            source_nodes=text_nodes + image_nodes
        )

# 使用多模态响应合成器（概念性）
# multimodal_synthesizer = MultimodalResponseSynthesizer(Settings.llm)
# query_engine = index.as_query_engine(response_synthesizer=multimodal_synthesizer)

10.2 自适应响应合成器

class AdaptiveResponseSynthesizer(BaseSynthesizer):
    """自适应响应合成器"""
    
    def __init__(self, llm, adaptation_strategy=None):
        self.llm = llm
        self.adaptation_strategy = adaptation_strategy or self._default_adaptation_strategy()
        self.feedback_history = []
        super().__init__()
    
    def _default_adaptation_strategy(self):
        """默认适应策略"""
        def strategy(query_bundle, nodes, feedback_history):
            # 基于反馈历史和查询特点选择策略
            if len(feedback_history) > 5:
                # 有足够的反馈历史
                positive_feedback_rate = sum(
                    1 for fb in feedback_history[-10:] if fb.get("rating", 0) > 3
                ) / min(10, len(feedback_history))
                
                if positive_feedback_rate < 0.5:
                    # 反馈较差，使用更详细的模式
                    return "detailed"
            
            # 基于查询长度选择
            if len(query_bundle.query_str) > 50:
                return "comprehensive"
            else:
                return "concise"
        return strategy
    
    def synthesize(self, query_bundle, nodes, **kwargs):
        """自适应合成"""
        # 确定适应策略
        strategy = self.adaptation_strategy(query_bundle, nodes, self.feedback_history)
        
        # 根据策略合成响应
        if strategy == "detailed":
            response = self._synthesize_detailed(query_bundle, nodes)
        elif strategy == "comprehensive":
            response = self._synthesize_comprehensive(query_bundle, nodes)
        else:  # concise
            response = self._synthesize_concise(query_bundle, nodes)
        
        return response
    
    def _synthesize_detailed(self, query_bundle, nodes):
        """详细合成"""
        context_str = "\n\n".join([
            f"[相关度: {node.score:.2f}] {node.node.text[:400]}" 
            for node in sorted(nodes, key=lambda x: x.score, reverse=True)[:5]
        ])
        
        prompt = f"""
        请提供一个非常详细和全面的回答，基于以下信息：
        
        详细信息：
        {context_str}
        
        具体问题：
        {query_bundle.query_str}
        
        要求：
        1. 提供背景信息
        2. 详细解释每个要点
        3. 提供示例和应用场景
        4. 指出注意事项和限制
        
        详细回答：
        """
        
        response_text = self.llm.complete(prompt).text
        
        return Response(
            response=response_text,
            source_nodes=nodes
        )
    
    def _synthesize_comprehensive(self, query_bundle, nodes):
        """全面合成"""
        context_str = "\n\n".join([
            node.node.text[:300] 
            for node in sorted(nodes, key=lambda x: x.score, reverse=True)[:4]
        ])
        
        prompt = f"""
        请提供一个全面但简洁的回答，基于以下信息：
        
        信息：
        {context_str}
        
        问题：
        {query_bundle.query_str}
        
        要求：
        1. 涵盖主要要点
        2. 保持简洁明了
        3. 提供关键细节
        4. 结构清晰
        
        全面回答：
        """
        
        response_text = self.llm.complete(prompt).text
        
        return Response(
            response=response_text,
            source_nodes=nodes
        )
    
    def _synthesize_concise(self, query_bundle, nodes):
        """简洁合成"""
        context_str = "\n\n".join([
            node.node.text[:200] 
            for node in sorted(nodes, key=lambda x: x.score, reverse=True)[:3]
        ])
        
        prompt = f"""
        请提供一个简洁明了的回答，基于以下信息：
        
        信息：
        {context_str}
        
        问题：
        {query_bundle.query_str}
        
        简洁回答：
        """
        
        response_text = self.llm.complete(prompt).text
        
        return Response(
            response=response_text,
            source_nodes=nodes
        )
    
    def record_feedback(self, response, feedback):
        """记录反馈"""
        self.feedback_history.append({
            "response": str(response),
            "feedback": feedback,
            "timestamp": self._get_timestamp()
        })
        
        # 保持反馈历史在合理范围内
        if len(self.feedback_history) > 100:
            self.feedback_history = self.feedback_history[-50:]
    
    def _get_timestamp(self):
        """获取时间戳"""
        from datetime import datetime
        return datetime.now().isoformat()

# 使用自适应响应合成器
# adaptive_synthesizer = AdaptiveResponseSynthesizer(Settings.llm)
# query_engine = index.as_query_engine(response_synthesizer=adaptive_synthesizer)