蚁群算法再优化:combine aco algorithm with Sarsa in RL
蚁群算法、Sarsa介绍和TSP问题介绍
在进行蚁群算法优化介绍之前,笔者先将涉及到的算法等应用背景与大家说清楚。
TSP和Sarsa
TSP问题叫旅行商问题,即给定n个城市和他们的坐标,城市之间的距离表示为dij(i,j分别为不同城市的下标),d的距离一般用欧式距离,且为对称问题(就是i->j 和 j->i的距离是相等的),我们要寻找一个哈密顿回路,来使得回路的消耗最小,这就是我们的TSP问题的目标。
Sarsa算法是强化学习中智能体在未知空间学习策略的一种经典算法。其大致思路是智能体(agent)下一时刻采取的动作参考动作所带来的收益,且以ε的概率采取获得收益的最大动作,1-ε的概率随机选取剩下的动作进行寻优。
具体的相关的文章可以参看笔者之前的blog,强化学习的Sarsa与Q-Learning的Cliff-Walking对比实验.下面引用文章中Sarsa的伪代码。
aco algorithm
蚁群算