深度强化学习在空管与虚拟现实沙盘心理治疗中的应用
1. 深度强化学习在空管中的应用
随着空中交通流量的增加和复杂性的提升,确保终端空域内航班的安全高效运行成为了一项挑战。为应对这一问题,研究人员提出了基于深度强化学习的方法,构建人工智能(AI)代理来模拟空中交通管制员的工作。
1.1 问题定义
在终端扇区,空中交通管制员需要通过发送连续指令(如高度调整和速度调整)来确保所有飞机之间的安全间隔。将这一空管决策问题转化为强化学习模型,符合马尔可夫决策过程。为简化问题,只调整飞机的高度,将复杂的三维终端空域通过分散状态空间和动作空间投影到垂直平面。
强化学习问题通常涉及状态空间、动作空间、奖励函数和目标函数,具体定义如下:
- 状态空间 S :包含环境的所有信息,每个元素 $s_t \in S$ 可视为时间 $t$ 时环境的快照,包括每架飞机 $i$ 的位置 $(x_i, y_i)$ 和高度 $h_i$。
- 动作空间 A :AI 代理在环境中可选择的所有动作的集合。在本研究中,构建的 AI 代理每四秒可采取一个动作来改变飞机的高度,动作包括保持高度、升高高度和降低高度。
- 状态转移 :在每个状态下,AI 代理可从可行决策选项集合 A 中选择一个决策 a,对应一个决策 a,可实现从状态 $s_i$ 到另一个状态 $s_j$ 的转移。
- 目标 :代理的目标是通过选择动作与模拟器进行交互,以最大化未来奖励。所选动作应通过高度调整维持飞机之间的安全间隔,解决扇区内所有飞机的冲突,并使所有
超级会员免费看
订阅专栏 解锁全文

1382

被折叠的 条评论
为什么被折叠?



