目录 论文 一、概论 二、模型 参数 公式 网络 Critic网络 actor-critic算法 搜索策略 三、实验及结果 几种不同的实验组合 实验结论 四、迁移到背包问题 定义 实验结论  论文 强化学习+指针网络+组合优化 一、概论 主要是用强化学习中的策略梯度方法,来计算为TSP建立的指针网络模型的参数。同时发现策略梯度+主动学习的效果更好 二、模型 参数 s:是输入的序列坐标集 θ \theta θ:网络的参数 π \pi π:一种策略(参数)的输出结果 公式 定义结果好坏 π \pi π结果出现的可能性【链式展开】 定义在 s s s的空间中,参数为 θ \theta θ的L的期望值