11、人群模拟器中基于逆强化学习的智能体行为模拟

人群模拟器中基于逆强化学习的智能体行为模拟

1. 智能体生成与模拟运行

智能体生成脚本包含了智能体生成的规则,例如创建的智能体数量、智能体类型(若不是默认类型,还需指定使用的智能体行为文件)、智能体的起始点和目标点。CrowdWalk 有一个工具,可通过提供一些简单规则和地图模型自动生成该文件。智能体行为包含在脚本中,描述了智能体的宏观行为,不过该脚本是可选的,因为有一些预定义的智能体,如随机移动的智能体或直接朝着目标移动的智能体。

模拟管理器调用智能体处理程序,按照智能体生成脚本中的规则在虚拟环境中生成智能体。运行时,模拟引擎将场景呈现为图形模拟,智能体根据各自的行为模块行动,还允许随时暂停模拟并检查其中的每个元素(如智能体的当前内部状态、节点或链接)。

CrowdWalk 运行时,会展示智能体穿越城市地图的模拟,直到所有智能体到达目标点。智能体自由行走时显示为绿色,需要停止或放慢速度时变为红色,以显示地图中的瓶颈。模拟器屏幕允许暂停模拟并检查每个智能体、地图节点或链接的信息。模拟以加速时间运行,但会根据智能体的速度显示实际花费的时间。结束后,会将每个智能体的路径记录在带有时间戳的日志中,以便后续复制或分析。

2. 智能体模型

逆强化学习(IRL)技术适用于可以用马尔可夫决策过程(MDP)建模的领域,用于学习其隐藏的奖励函数。MDP 由元组 $M = {S, A, T, \gamma, r}$ 定义,各参数含义如下:
| 参数 | 含义 |
| ---- | ---- |
| $S$ | 模型的状态空间 |
| $A$ | 可执行的动作集合 |
| $T$ | 转移函数,给定具体动作,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值