摘要
分块策略是检索增强生成(RAG)系统的核心瓶颈,直接影响知识召回率与生成质量。本文基于企业级实践与学术前沿(如LGMGC、Meta-Chunking),系统剖析五大分块策略与三大创新框架,结合金融、医疗等高危场景案例,通过12张架构图与4张对比表,揭示分块技术选型与优化的方法论。全文超5000字,提供可复现的代码示例与场景化决策树。
1 分块策略:RAG系统的“知识手术刀”
1.1 分块不当的典型问题
- 金融场景案例:
固定分块将“2023年Q3净利润同比增长5.2%(详见附录Table 7)”割裂为两个块,导致数据来源丢失 - 医疗场景风险:
过敏史信息被分散存储,模型推荐禁忌药物