文章主要内容
本文针对带时间窗的车辆路径问题(CVRPTW),提出了一种结合大语言模型(LLM)和Q学习的增强框架,旨在解决具有实时紧急约束的CVRPTW问题。通过将LLM的语义推理能力与强化学习的迭代优化能力相结合,框架分为LLM引导探索阶段和Q网络自主优化阶段,并设计了三层自校正机制(语法验证、语义验证、物理约束执行)来提升LLM输出的可靠性。实验结果表明,该框架在经典CVRP数据集上相比传统Q学习成本平均降低7.3%,收敛速度更快。
文章创新点
- 两阶段自适应训练框架
- 初期通过LLM生成候选轨迹,约束动作空间并引导探索;后期通过优先经验回放(PER)机制强化LLM经验的影响,实现从“引导探索”到“自主优化”的平滑过渡。
- 三层自校正机制
- 基于思维链(CoT)设计语法、语义、物理约束三层过滤,缓解LLM的“幻觉”问题,确保生成轨迹满足问题约束。
- 优先经验回放(PER)增强
- 在PER中引入LLM生成标记,提升L