原文
摘要
本研究分析了强化学习(RL)在智能生产物流(SPL)物料搬运任务中的应用。基于汽车行业动态生产物流环境中RL模型的经验结果,本文提出了两个贡献。首先,在SPL中集成RL的使用体系结构。其次,本研究定义了与SPL中模型的训练和验证相关的RL的各个元素(环境、价值、状态、奖励和政策)。该研究为制造管理者提供了必要的新见解,并扩展了当前对结合人工智能和SPL研究的相关理解,授予制造公司独特的竞争优势。
1. 绪论
最近的研究强调了智能生产物流(SPL)作为提高制造企业竞争力的关键使能者的重要性[1]。SPL是指应用信息物理系统(CPS)和物联网(IoT)技术,实现对物料搬运任务的实时感知和响应,以及自主决策[2]。特别是,SPL通过减少最大完工时间、能源消耗和准时交货,以及提高吞吐量,使材料处理路线受益,这对获得制造[3]的竞争优势至关重要。
研究认为,实现SPL在物料搬运路线中的好处需要解决动态方面,包括现代工厂环境的快速变化[4]。因此,SPL必须及时响应订单变化、中断、物料搬运资源的流量(如自动引导车辆或叉车),或生产线[5]的工作任务和进度。最近的研究建议将强化学习(RL)应用于自动引导车辆(agv)的路线和机器人的物料搬运,包括动态方面[6]。RL是一种方法,包括代理通过尝试和错误来学习行为,以最大化累积奖励,并与环境[7]进行交互,而不是依赖于环境的完整模型。研究认为,将RL应用于物料处理路线可能会带来两个现有的替代方案的好处,包括线性或混合整数规划,基于模拟的多目标优化,或启发式和元启发式算法[8]。首先,改进路由生成和系统响应时间。其次,代理根据工厂车间动态产生的情况进行学习、适应和优化。将RL应用于路线设计的研究成果改善了配送、燃油消耗和配送,但却超出了制造中的材料处理任务的范围[9,10]。然而,将RL应用于SPL[11]的物料搬运路线还需要进一步研究。
因此,本研究的目的是分析RL在制造企业物料搬运SPL中的应用。研究提出了一种RL模型,用于优化实验室环境下AGV的物料搬运路线。RL模型包括一个2-D网格和可更改的拾取和运送材料的位置。该研究提出了两个