动态生产物流环境下物料搬运任务分配与路径规划的强化学习模型

原文

2021,A reinforcement learning model for material handling task assignment and route planning in dynamic production logistics environment 


摘要

本研究分析了强化学习(RL)在智能生产物流(SPL)物料搬运任务中的应用。基于汽车行业动态生产物流环境中RL模型的经验结果,本文提出了两个贡献。首先,在SPL中集成RL的使用体系结构。其次,本研究定义了与SPL中模型的训练和验证相关的RL的各个元素(环境、价值、状态、奖励和政策)。该研究为制造管理者提供了必要的新见解,并扩展了当前对结合人工智能和SPL研究的相关理解,授予制造公司独特的竞争优势。


1. 绪论

最近的研究强调了智能生产物流(SPL)作为提高制造企业竞争力的关键使能者的重要性[1]。SPL是指应用信息物理系统(CPS)和物联网(IoT)技术,实现对物料搬运任务的实时感知和响应,以及自主决策[2]。特别是,SPL通过减少最大完工时间、能源消耗和准时交货,以及提高吞吐量,使材料处理路线受益,这对获得制造[3]的竞争优势至关重要。

研究认为,实现SPL在物料搬运路线中的好处需要解决动态方面,包括现代工厂环境的快速变化[4]。因此,SPL必须及时响应订单变化、中断、物料搬运资源的流量(如自动引导车辆或叉车),或生产线[5]的工作任务和进度。最近的研究建议将强化学习(RL)应用于自动引导车辆(agv)的路线和机器人的物料搬运,包括动态方面[6]。RL是一种方法,包括代理通过尝试和错误来学习行为,以最大化累积奖励,并与环境[7]进行交互,而不是依赖于环境的完整模型。研究认为,将RL应用于物料处理路线可能会带来两个现有的替代方案的好处,包括线性或混合整数规划,基于模拟的多目标优化,或启发式和元启发式算法[8]。首先,改进路由生成和系统响应时间。其次,代理根据工厂车间动态产生的情况进行学习、适应和优化。将RL应用于路线设计的研究成果改善了配送、燃油消耗和配送,但却超出了制造中的材料处理任务的范围[9,10]。然而,将RL应用于SPL[11]的物料搬运路线还需要进一步研究。

因此,本研究的目的是分析RL在制造企业物料搬运SPL中的应用。研究提出了一种RL模型,用于优化实验室环境下AGV的物料搬运路线。RL模型包括一个2-D网格和可更改的拾取和运送材料的位置。该研究提出了两个

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值