6.0 前言
多Agent领域的一个流行的说法是:
作为单个Agent的系统没有太多要研究的问题。
从单个Agent,到多个Agent,需要理解一些概念,本章就来介绍。
6.1 效用和偏好
俩Agent i和j,都有各自的偏好和愿望。自然,他们就会对结果进行打分。所以面对结局或状态的集合,他们会自然的打分,于是可以映射成一个分数,这个分数就叫做效用。
然后不同结局,总有不同的喜好程度吧,或者一样的分吧,就是说如果,那么结局
至少与结局
一样好。
于是我们引入偏好顺序,简化写成:
同样,如果,那么Agent i的结局
严格好于
,简化写成:
换句话说:
可以看出,关系的确是
上的一个排序,有以下性质:
- 自反性 对所有
,有
- 传递性 如果
并且
,则
- 比较性 对所有
和
,或者
或者
6.1.1 什么是效用
想象一个人,他总资产只有1块钱,然后你给他100万,他是不是会很开心?
然后你再想,一个人,他总共有1亿元,然后你给他100万,他会很开心吗?最起码没第一个人开心,都不用在银行存多久,银行经理就会屁颠屁颠的跑过来跟你谈买理财产品了,那绝对就不止100万了。
然后想象一个人,他负债5亿美元(别问为啥负债就变成美元了),你给他补100万美元,他会好受一点么?当然。
但你再想一个人,他负债刚好100万美元,你给他补完,他不欠钱了,他会好受的,而且肯定是比第一个人好受。
所以效果如图:
这就是效用的特点,而且这也解释清楚了边际效应递减是什么样的。
6.2 环境
现在来看环境。
Agent做动作,然后改变了环境。假设就俩Agent,只能选择合作和不合作,合作就是Cooperate,不合作就是defy,设是这些动作的集合。环境改变的方式如下面这个函数表示: