40、多智能体学习方法:从理论到实践

多智能体学习方法:从理论到实践

1. 进化模型方法

在多智能体学习领域,有几种重要的进化模型方法,包括 FAQ、LFAQ、FALA 和 RM。
- FAQ 和 LFAQ
- FAQ 的进化动态方程为:$\frac{dx_i}{dt} = \frac{\alpha x_i}{\tau} [(Ay) i - x^T Ay]+x_i\alpha\sum_j x_j\ln(\frac{x_j}{x_i})$。
- LFAQ 中,$u_i = \sum_j A
{ij}y_j \left[\sum_{k:A_{ik}\leq A_{ij}} y_k\right]^{\kappa} - \left[\sum_{k:A_{ik}< A_{ij}} y_k\right]^{\kappa} \big/ \sum_{k:A_{ik}= A_{ij}} y_k$,且$\frac{dx_i}{dt} = \frac{\alpha x_i}{\tau} (u_i - x^T u)+x_i\alpha\sum_j x_j\ln(\frac{x_j}{x_i})$。
- 通过在不同游戏(如性别之战、囚徒困境、匹配硬币)中的策略轨迹图可以发现,FAQ 和 LFAQ 的行为符合其进化模型的预测。在囚徒困境中,所有轨迹都收敛到游戏的纳什均衡 (D,D),即图中的 (0,0) 点。
- FALA 和 RM
- FALA 的进化动态方程为:$\frac{dx_i}{dt} = \alpha x_i[(Ay)_i - x^T Ay]$。
- RM 的进化动态方程为:$\frac{d

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值