动态生产物流环境下物料搬运任务分配与路径规划的强化学习模型

原文

2021，A reinforcement learning model for material handling task assignment and route planning in dynamic production logistics environment

摘要

本研究分析了强化学习(RL)在智能生产物流(SPL)物料搬运任务中的应用。基于汽车行业动态生产物流环境中RL模型的经验结果，本文提出了两个贡献。首先，在SPL中集成RL的使用体系结构。其次，本研究定义了与SPL中模型的训练和验证相关的RL的各个元素(环境、价值、状态、奖励和政策)。该研究为制造管理者提供了必要的新见解，并扩展了当前对结合人工智能和SPL研究的相关理解，授予制造公司独特的竞争优势。

1. 绪论

最近的研究强调了智能生产物流(SPL)作为提高制造企业竞争力的关键使能者的重要性[1]。SPL是指应用信息物理系统(CPS)和物联网(IoT)技术，实现对物料搬运任务的实时感知和响应，以及自主决策[2]。特别是，SPL通过减少最大完工时间、能源消耗和准时交货，以及提高吞吐量，使材料处理路线受益，这对获得制造[3]的竞争优势至关重要。

研究认为，实现SPL在物料搬运路线中的好处需要解决动态方面，包括现代工厂环境的快速变化[4]。因此，SPL必须及时响应订单变化、中断、物料搬运资源的流量(如自动引导车辆或叉车)，或生产线[5]的工作任务和进度。最近的研究建议将强化学习(RL)应用于自动引导车辆(agv)的路线和机器人的物料搬运，包括动态方面[6]。RL是一种方法，包括代理通过尝试和错误来学习行为，以最大化累积奖励，并与环境[7]进行交互，而不是依赖于环境的完整模型。研究认为，将RL应用于物料处理路线可能会带来两个现有的替代方案的好处，包括线性或混合整数规划，基于模拟的多目标优化，或启发式和元启发式算法[8]。首先，改进路由生成和系统响应时间。其次，代理根据工厂车间动态产生的情况进行学习、适应和优化。将RL应用于路线设计的研究成果改善了配送、燃油消耗和配送，但却超出了制造中的材料处理任务的范围[9,10]。然而，将RL应用于SPL[11]的物料搬运路线还需要进一步研究。

因此，本研究的目的是分析RL在制造企业物料搬运SPL中的应用。研究提出了一种RL模型，用于优化实验室环境下AGV的物料搬运路线。RL模型包括一个2-D网格和可更改的拾取和运送材料的位置。该研究提出了两个贡献，扩展了现有的理解，