英文论文阅读笔记1

High-reputation individuals exert greater influence on cooperation in spatial public goods game

高声誉个体在空间公共物品博弈的合作中发挥着更大的作用

1.简单介绍一下

​ 该论文就,相对声誉值高的个体其影响范围会比相对声誉值低的个体的影响范围大。因此,在该论文中,不再只研究个体与其四周的四个直接邻居进行博弈,将个体的博弈范围进行了扩大。(当然是在方格网络中)

​ 即个体x根据自己的声誉值高低,从而于更大范围的其他个体进行更新。

​ 还有一个新的点,就是通常我所见过的几篇论文中,大家都是将声誉与收益分开来进行博弈的。通常是,首先根据个体的声誉来概率性的选择要模仿的对象,然后,使用传统的费米函数(亦或有什么新系数的改进Fermi函数)来根据两个个体之间的收益差,依概率的确定个体x是否要更新为模仿对象的策略。

​ 而这篇论文中,其引入了声誉与收益的融合信息的方式,采用证据融合理论来同时根据声誉和收益依概率选择是否要模仿某一个对象的策略。
W ( S x ← S y ) = E Y E Y + E N (1) W(S_x \leftarrow S_y) = \frac{E_Y}{E_Y+E_N} \tag{1} W(SxSy)=EY+ENEY(1)

​ 还有一个有意思的点就是,新学习了一种现象-------> 边际效应。

公式1的变量含义以及何为边际效应,我会在下面的模型构造中一一阐述。

2. 模型

​ 该模型是抽象于规则的方格网络中,其规模还是常见的100*100。(即,L=100)

2.1 声誉值的更新

这个声誉值的更新方式与我们之前整理的完全一致。其个别不同点在于,声誉值的范围为0~120。

R t + 1 = { R t + 1 , if  S t = C R t − 1 , if  S x = D R m i n , if  R t + 1 ≤ R m i n R m a x , if  R t + 1 ≥ R m i n (2) R_{t+1}=\begin{cases} R_t+1,& \text{if } {S_t =C} \\ R_t-1,& \text{if } S_x=D \\ R_{min},& \text{if } {R_{t+1} \leq R_{min}} \\ R_{max},& \text {if }R_{t+1} \geq R_{min} \end{cases} \tag{2} Rt+1= Rt+1,Rt1,Rmin,Rmax,if St=Cif Sx=Dif Rt+1Rminif Rt+1Rmin(2)

可以看到,如果个体x在上一轮中选择合作策略,则其声誉值加1;如果是背叛者则其声誉值-1。声誉值最大为120,最小为0。

2.2 个体x的博弈收益

π S x g = { π x g = r ( N C g + 1 ) G − 1 , if  S x = C π x g = r N C g G , if  S x = D (3) \pi^{g}_{S_x}=\begin{cases} π^{g}_{x}=\frac{r(N^{g}_{C}+1)}{G}-1,& \text{if } {S_x}=C \\π^{g}_{x}=\frac{rN^{g}_{C}}{G},& \text{if } {S_x}=D \end{cases} \tag{3} πSxg={πxg=Gr(NCg+1)1,πxg=GrNCg,if Sx=Cif Sx=D(3)

​ 这个在前面也整理过,也是比较容易理解的。 N_c表示除了个体x之外其周围的邻居中合作者的个数。G一共是五个。但是,在该model中,G的个数不一定是5,其个数的多少由个体x的声誉值决定。声誉值高,影响范围大,则其邻居多,G也就大;反之,G就比较小。其它细节就不一一介绍了。

2.3 个体x的影响范围的确定公式

​ 首先,我们确定个体x的最大影响范围用字母T表示,其中T∈[1,5]。T表示了随着x声誉值的增加,个体x所能影响的范围大小。这个T也就代表了个体x能扩大多大范围的信息收集的能力。

​ 其次,M_x代表的是个体x的影响范围,其具体公式为:

M x = { 1 , if  R x = 0 m , if  ( m − 1 ) R m a x − R m i n T < R x ≤ m R m a x − R m i n T (4) M_x=\begin{cases}1,& \text{if } {R_x}=0 \\ m,& \text{if }(m-1)\frac{R_{max}-R_{min}}{T} <R_x \leq m\frac{R_{max}-R_{min}}{T} \end{cases} \tag{4} Mx={1,m,if Rx=0if (m1)TRmaxRmin<RxmTRmaxRmin(4)

至于为什么该个体x的影响范围由该公式决定的,我们并不得知,但是该公式可以成为我们以后使用的公式。 这个就是根据个体x的声誉值来确定个体x的影响范围的。 其中R_max-R_min就是固定值120,所以就可以左右移项,变成一个有关m的不等式,变量就是T和R_x。 这个也比较好解决。

2.4 证据理论融合公式

这个听起来挺高大上的,但其实很简单,也就是一个权重占比而已。

x根据收益更新策略的公式(Fermi函数)为:

W p a y o f f ( S x ← S y ) = 1 1 + e P x − P y K (5) W_{payoff}(S_x \leftarrow S_y)=\frac{1}{1+e^{\frac{P_x-P_y}{K}}} \tag{5} Wpayoff(SxSy)=1+eKPxPy1(5)

x根据声誉值更新策略的概率公式为:

W r e p u a t i o n ( S x ← S y ) = 1 1 + e R x − R y K ∗ 4 r R m a x (6) W_{repuation}(S_x \leftarrow S_y)=\frac{1}{1+e^{\frac{R_x-R_y}{K}*\frac{4r}{R_max}}} \tag{6} Wrepuation(SxSy)=1+eKRxRyRmax4r1(6)

公式的由来我并不清楚,值得注意的是,在后面会看到的一篇论文中,应该会介绍这个证据理论融合公式。

The probability of individual x making a policy update after fusion by evidence theory is given by:

个体x在证据理论融合后学习y的策略的概率由下式给出:

W ( S x ← S y ) = E Y E Y + E N (1) W(S_x \leftarrow S_y) = \frac{E_Y}{E_Y+E_N} \tag{1} W(SxSy)=EY+ENEY(1)

E Y = ( 1 − w ) 2 ∗ W p a y o f f + w 2 W r e p u t a t i o n + w ( 1 − w ) ∗ W p a y o f f ∗ W r e p u t a t i o n (7) E_Y=(1-w)^2*W_{payoff}+w^2W_{reputation}+w(1-w)*W_{payoff}*W_{reputation} \tag{7} EY=1w)2Wpayoff+w2Wreputation+w(1w)WpayoffWreputation(7)

E N = ( 1 − w ) 2 ∗ ( 1 − W p a y o f f ) + w 2 1 − W r e p u t a t i o n + w ( 1 − w ) ∗ 1 − W p a y o f f ∗ 1 − W r e p u t a t i o n (8) E_N=(1-w)^2*(1-W_{payoff})+w^2{1-W_{reputation}}+w(1-w)*{1-W_{payoff}}*{1-W_{reputation}} \tag{8} EN=(1w)2(1Wpayoff)+w21Wreputation+w(1w)1Wpayoff1Wreputation(8)

w范围为(0,1) 。 首先还是声明,1,7,8 这三个公式是由全吉教授写出来的,其如何创造的我并不知晓也并不想要进行深究,还是那句话,能用就行。

我们可以发现的一个细节就是w的大小决定着收益(payoff)和声誉{reputation}在证据融合公式中所占权重的大小。同时,这个变量(w)的出现,也为后面出现的边际效应埋下了伏笔。(至于w如何详细的左右两者的权重,我觉得有必要早上过来之后进行深究一下,不行问问AI也行)

关于这个w的作用,对权重的关系这个问题,在之后读的一篇论文<> 我们就会学习到这个证据融合公式。 本来应该先读这篇论文的,哈哈我给搞反了。没事,争取26号能够看完这篇论文到时候直接索引我的另一篇笔记。

​ 你看,我就现在就我目前的理解,来讲一讲这个边际效应。

2.5 边际效应(目前的理解,在读完下一篇论文后可能会出现颠覆性的认知)

​ 在文中提到了一种奇怪的现象,就是随着扩大个体的搜索范围反而会降低种群的合作水平,这种情况在w较小时尤为明显。主要原因有两个**:前中期背叛者数量的减少以及收益所占权重较高**。

​ 在演化博弈过程中,随着合作者的逐渐增加,投放到公共池中的资金也在不断地增多,而所分到的利益也就不断增加,便有背叛者获得了比合作者更高的收益。

​ 而在这个证据融合公式中,w较小时,收益所占的权重比较大,因此,个体开始模仿背叛者的策略,反而会随着搜索范围的扩大,而不断的出现更多的背叛者;而T=1的时候,基于范围的限制,个体只能作用于其周围的邻居,反而抑制了背叛策略的传播;T=5,较大时,高收益的背叛者可以更好的传播他的策略,致使背叛者数量增加。

​ 而w较大时,仍然会出现这种边际效应(这种扩大搜索范围所带来的弊端就是会出现边际效应),并不会随着w的增大而完全消失。只是,w越大,其产生的负面效果越小。因为w越大,那么声誉所占比重越高,而背叛者都是低声誉者,虽然其利益较大,但由于声誉权重占比高,因此所产生抑制合作的影响微乎其微。

​ 所以,我前面所讲的,w是关乎声誉与收益哪一个占大头的重中之重!!

总结

在有关证据融合公式和w的解释上面仍然存在异议,这个是10月下半旬要解决的问题。

这篇论文确实让我学到了不少的东西,包括想到了一个idea!!(跟师姐聊了聊,师姐眼里有光,应该具有可行性,但其结果是否有利于合作的涌现,还需真真做出来再说。)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值