A Large Language Model-Enhanced Q-learning for Capacitated Vehicle Routing Problem with Time Windows

文章主要内容

本文针对带时间窗的车辆路径问题(CVRPTW),提出了一种结合大语言模型(LLM)和Q学习的增强框架,旨在解决具有实时紧急约束的CVRPTW问题。通过将LLM的语义推理能力与强化学习的迭代优化能力相结合,框架分为LLM引导探索阶段Q网络自主优化阶段,并设计了三层自校正机制(语法验证、语义验证、物理约束执行)来提升LLM输出的可靠性。实验结果表明,该框架在经典CVRP数据集上相比传统Q学习成本平均降低7.3%,收敛速度更快。

文章创新点

  1. 两阶段自适应训练框架
    • 初期通过LLM生成候选轨迹,约束动作空间并引导探索;后期通过优先经验回放(PER)机制强化LLM经验的影响,实现从“引导探索”到“自主优化”的平滑过渡。
  2. 三层自校正机制
    • 基于思维链(CoT)设计语法、语义、物理约束三层过滤,缓解LLM的“幻觉”问题,确保生成轨迹满足问题约束。
  3. 优先经验回放(PER)增强
    • 在PER中引入LLM生成标记,提升L
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值