【强化学习环境】TSP问题强化学习环境搭建

Python实现TSP问题的环境模拟

最新推荐文章于 2024-07-10 16:35:17 发布

原创

最新推荐文章于 2024-07-10 16:35:17 发布 · 437 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #强化学习 #机器学习 #深度学习 #gym环境

该代码定义了一个TSP环境类，用于模拟旅行商问题。环境随机生成城市坐标，提供reset和step方法来改变路径并计算距离。它还包含一个render方法，用matplotlib可视化当前路径和城市位置。

Reset()重置包括坐标点

reset()重置不包括坐标点

这里的render()参考之前看过的一篇文章（具体是哪篇忘了，没有收藏）使用matplotlib实现

import warnings
import numpy as np
import matplotlib.pyplot as plt

class TSPEnvironment:
    """
    __init__() parm: num city, coordinate_dimension, box size
    step() and reset() return: (coordinates, path, valid) -> state, reward, done
    """
    def __init__(self, num_cities, coordinate_dimension=2, box_size=1.0):
        assert coordinate_dimension >= 2, "coordinate_dimension must >= 2 !"
        self.num_cities = num_cities
        self.coordinate_dimension = coordinate_dimension
        self.box_size = box_size
        self.coordinates, self.cities_coordinates, self.path, self.now_location = None, None, None, None
        self.done = False
        self.total_distance = 0.0
        self.__init_environment = self.Reset
        self.__init_environment()

    def reset(self, start_city=None):
        if start_city is not None:
            assert start_city < self.num_cities, "Start city must < num of city !!!"

        self.now_location = start_city if start_city is not None else np.random.choice(
            list(self.cities_coordinates.keys()))
        self.path = [self.now_location]
        self.done = False
        self.total_distance = 0.0

        valid = self.get_valid_cities(self.path, self.coordinates)
        coordinates = np.array([i for i in self.coordinates])
        path = [i for i in self.path]
        return (coordinates, path, valid), 0.0, self.done

    def Reset(self, start_city=None):
        if start_city is not None: