娱乐至死,数学上这么推演表示?《多Agent系统引论》第6章 多Agent交互 小结

本文围绕多Agent系统展开,介绍了效用和偏好、环境等概念,阐述了优势策略与Nash均衡,分析了竞争和零和交互。重点探讨了囚犯两难问题,包括不同情况下的应对策略及Axelrod的比赛结果。还提及猎鹿游戏、小鸡游戏等2*2对称交互,以及多Agent系统的依赖关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

6.0 前言

多Agent领域的一个流行的说法是:

作为单个Agent的系统没有太多要研究的问题。

从单个Agent,到多个Agent,需要理解一些概念,本章就来介绍。

6.1 效用和偏好

俩Agent i和j,都有各自的偏好和愿望。自然,他们就会对结果进行打分。所以面对结局或状态的集合,他们会自然的打分,于是可以映射成一个分数,这个分数就叫做效用。

然后不同结局,总有不同的喜好程度吧,或者一样的分吧,就是说如果,那么结局\omega至少与结局\omega '一样好。

于是我们引入偏好顺序,简化写成:

同样,如果,那么Agent i的结局\omega严格好于\omega ',简化写成:

换句话说:

可以看出,关系\succeq _i的确是\Omega上的一个排序,有以下性质:

  • 自反性   对所有,有
  • 传递性   如果并且,则
  • 比较性   对所有,或者或者

6.1.1 什么是效用

想象一个人,他总资产只有1块钱,然后你给他100万,他是不是会很开心?

然后你再想,一个人,他总共有1亿元,然后你给他100万,他会很开心吗?最起码没第一个人开心,都不用在银行存多久,银行经理就会屁颠屁颠的跑过来跟你谈买理财产品了,那绝对就不止100万了。

然后想象一个人,他负债5亿美元(别问为啥负债就变成美元了),你给他补100万美元,他会好受一点么?当然。

但你再想一个人,他负债刚好100万美元,你给他补完,他不欠钱了,他会好受的,而且肯定是比第一个人好受。

所以效果如图:

这就是效用的特点,而且这也解释清楚了边际效应递减是什么样的。

6.2 环境

现在来看环境。

Agent做动作,然后改变了环境。假设就俩Agent,只能选择合作和不合作,合作就是Cooperate,不合作就是defy,设是这些动作的集合。环境改变的方式如下面这个函数表示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值