协作学习捕食者与类人机器人自稳定行走研究
1. 协作学习捕食者的研究
在捕食者与猎物的场景研究中,存在两种学习架构,分别是个体规则库和公共规则库。
-
学习架构
- 个体规则库 :每个捕食者独立学习并将经验存储在本地规则库中。
- 公共规则库 :所有捕食者将经验累积存储在一个集中的规则库中,所有队友都可访问。这种架构下,捕食者仍自主决策,但知识共享。例如,一个捕食者的好决策对处于相同情况的其他捕食者同样适用。若捕食者作为传感器为公共规则库收集经验,学习时间可能比个体学习更短,在动态变化环境中,快速收敛的学习过程更具优势。
-
算法流程
在模拟的每个时间步,每个捕食者执行以下算法:
graph TD;
A[观察环境] --> B{是否看到猎物};
B -- 是 --> C[广播猎物位置];
B -- 否 --> D{其他队友是否感知到猎物};
D -- 是 --> E[获取猎物位置];
C --> E;
E --> F[基于XCS选择动作];
F --> G[触发并评估动作];
G --> H[根据奖励积累知识];
D -- 否 --> I[随机移动];
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



