77、多智能体环境中基于自我评估的有效决策

多智能体环境中基于自我评估的有效决策

在多智能体系统里,每个智能体的行为与整个智能体群体之间存在着紧密的联系。这意味着,每个智能体的行为中可能隐藏着其在群体中的相对状态信息。如果能够提取这些信息,智能体就有可能仅通过观察自身行为,而无需关注其他智能体的行为,来改善自身状态。本文聚焦于“幂律”这一在各类网络节点行为中出现的有趣特征,将其作为此类信息之一。此前的研究发现,在少数者博弈(Minority Game,MG)这一竞争性多智能体模拟环境中,高效行为的智能体呈现出幂律特征。因此,本文旨在验证在该游戏中,智能体能否仅通过观察自身行为来改善状态,并证实了这种性能提升是可行的。

1. 引言

近年来,人们发现从代谢和生态系统网络到社会社区网络以及技术形成的网络等各种网络,在节点行为高效时,都具有相同的网络结构——无标度网络。我们可以通过验证网络节点之间交换的信息流是否具有“幂律”特征,来判断一个网络是否具有无标度网络的特性。众多网络呈现无标度网络的事实表明,每个网络本质上都期望具备无标度网络的特性。在这一点上,幂律是形成无标度网络的最重要特征。例如,在互联网中,当流量中的数据包数量达到最大时,数据包的流动呈现出幂律特征。这意味着,如果在流量因某些故障而变得低效时,能够将流量调整为遵循幂律,那么流量可能会恢复到高效状态。要实现这一点,需要理解互联网流量中幂律的形成机制,进而控制与幂律形成密切相关的几个参数。

多智能体系统可视为一个网络,其中每个智能体是一个节点,每个智能体(节点)的行为构成了系统(网络)的特征。通常,在多智能体系统中,每个智能体通过考虑其他智能体的状态来决定自身行为,而每个智能体的行为又会影响整个智能体群体,群体的行为反过来又会影响每个智能体。因此,可以认为每个智能体的行为包含了其在整个智能体群体中的相对状态信息。如果每个智能体能够提取这些信息,它就可以仅通过观察自身行为来了解其在群体中的相对状态,并有可能高效地改善自身行为。在无标度网络中,单个节点的行为呈现出幂律特征。本文关注“幂律”这一在各类网络节点行为中出现的有趣特征,并将其作为此类信息之一。此前,我们一直在研究少数者博弈(MG),这是一个用于分析社会经济模型的竞争性模拟环境。在MG中,许多具有局部视野的智能体进行一个简单的游戏,从而形成一个社会社区网络,其中每个智能体是网络的一个节点。我们已经发现,具有高胜率的智能体的行为呈现出幂律特征。因此,本文首先分析了智能体行为中幂律形成的原因,其次验证了智能体能否通过检查自身行为是否呈现幂律来改善其行为。选择少数者博弈的原因在于,智能体的规则简洁,易于进行模拟,并且与互联网等真实网络相比,分析幂律形成的机制可能更容易。

2. 少数者博弈

少数者博弈的规则如下:有n个智能体,每个智能体是一个自主实体,它们根据自身的行为规则独立地在两个选项(组0或组1)之间进行选择。在每一轮游戏中,所有智能体选择其中一个选项,最终处于少数组的智能体被视为获胜者。每个获胜者获得1分,所有智能体获得的总分数即为该轮游戏的收益。因此,多数组和少数组的智能体数量差异越小,结果越好。

每个智能体根据其所持有的多个策略表之一进行选择。策略表中的实体包含m个过去获胜组选择的所有组合,以及与每个组合对应的下一个决策(见图1(b))。游戏开始时,每个智能体准备s个策略表,每个策略表的下一个决策条目(0或1)是随机存储的。

在游戏的第一轮,随机设置一个m个过去获胜组的历史记录,例如[1|1|0],每个智能体随机选择其s个策略表之一,并查看与[1|1|0]对应的下一个决策条目。如果下一个决策条目是组1,则智能体选择组1。如果智能体获胜,则为所选策略表增加1分;如果失败,则扣除1分。在所有智能体更新策略表的分数后,由于组1在本轮游戏中成为获胜组,m个过去获胜组的历史记录从[1|1|0]更新为[1|0|1]。

在第二轮及后续轮次的游戏中,始终选择分数最高的策略表。这个循环重复预定的次数,游戏的最终结果是所有轮次中获胜智能体获得的总分数。

2.1 智能体的涌现行为

通过上述简单规则形成了以下整体秩序。我们使用201个智能体进行游戏。图2(a)显示了获胜智能体数量的标准差。游戏进行了以下轮数,智能体拥有不同数量的策略表,s = {2, 5, 10, 16, 32, 64},策略表具有不同的历史深度,m = 3到16。对于每对参数(s, m),进行一次试验为10,000轮游戏,每对参数进行十次试验。图2(b)显示了获胜智能体的平均数量。图2(a)和(b)中的水平线分别表示所有智能体随机选择时的标准差和平均值。这些图表显示,对于较小的s值,当m在3到6之间时,标准差最小,获胜智能体的平均数量最多。图2(c)显示了201个智能体按平均得分的排名。在每个智能体随机选择“组0”或“组1”的情况下,它们大约可以获得4750分。另一方面,当标准差较小时(m = 3到5),平均得分较高,尽管智能体之间的得分存在一些差异,但所有或几乎所有智能体都能够获得稳定的高分。

这意味着在这些情况下,智能体之间的某种涌现行为促使获胜组的比例接近100:101。特别有趣的是,尽管我们期望基于更长历史的行为更有效,但当使用201个智能体进行游戏时,m大于10的结果与随机行为的结果相同。关于n和m,已经知道m与σ²/2N(σ是图2(a)中的标准差)之间存在恒定关系。在本文中,我们使用101、201和301个智能体进行了游戏。

参数 详情
智能体数量n 101、201、301
策略表数量s 2、5、10、16、32、64
历史深度m 3 - 16
每对参数试验轮数 10,000轮(每对参数进行十次试验)
3. 智能体行为与幂律

我们详细研究了每个智能体如何使用策略表来分析其行为。图3(a)和(b)显示了当使用201个智能体且每个智能体有2个策略表(s = 2)时,m = 3的第25名智能体和m = 14的第200名智能体的每个策略表的分数变化。

我们发现了一个有趣的事实。图3(a)中的第25名智能体同时使用了两个策略表,并且没有固定的连续使用一个策略表的周期。换句话说,该智能体的行为具有分形特征,即策略表的使用呈现出自相似性。图4以对数 - 对数尺度显示了每个智能体连续使用任一策略表的周期直方图。对于n = 101和n = 301,分别给出了m = 3、7和14的结果。在图4(a)和(b)中,m = 3的情况下可以看到幂律(图形接近直线)。另一方面,回到图3(b),第200名智能体的结果没有显示出分形特征,存在固定的连续使用一个策略表的周期。如图4所示,在n = 101和n = 301的m = 14情况下,没有看到幂律(图形不是直线)。并且图2已经验证了m = 14的智能体的性能与随机选择相同。因此,这些结果表明,在m较大的智能体行为中看不到幂律。有趣的是,m = 7的智能体的直方图显示了两种结果的有趣混合;一些类似于m = 3的图形,而另一些类似于m = 14的图形。可以认为,只有高胜率的智能体才能看到幂律。

图5显示了图4中所有智能体(从第一名到最后一名)的直方图斜率((a) n = 101和(b) n = 301)。可以看出,存在一致的关系,即高胜率智能体的幂律斜率比低胜率智能体的斜率更接近0(更水平)。

graph LR
    A[智能体行为分析] --> B[策略表使用情况]
    B --> C[m=3智能体]
    B --> D[m=14智能体]
    C --> E[呈现幂律]
    D --> F[未呈现幂律]
    E --> G[高胜率]
    F --> H[低胜率]
4. 幂律的形成机制

我们主要考虑两个问题:一是为什么m值较小的智能体的胜率比m值较大的智能体高;二是为什么在m值较小时,少数组和多数组的智能体数量差异较小。

4.1 幂律形成机制(1)

首先,由于每个策略表中的“0”和“1”是随机存储的,所以从随机角度来看,每个策略表中“0”和“1”的总数是相等的。因此,所有智能体针对每个m个过去获胜组历史记录的组合所选择的“0”和“1”的总数也必然在随机意义上相等。所以,在每一轮游戏中,少数组和多数组的智能体总数差异总是较小,经过多次游戏后,几乎所有智能体的胜率将大致相等。

小m值和大m值的策略表之间最大的区别在于每个策略表的条目数量。例如,m = 3的策略表只有8个条目,而m = 14的策略表有16,384个条目。即使“0”和“1”的总数在随机意义上相等,但每个策略表中“0”和“1”的分布存在多种情况。重要的是,对于每个m个过去获胜组历史记录,每个智能体通过查看其策略表中与该历史记录对应的条目所选择的“0”和“1”的分布组合是固定的。由于“0”和“1”总数极不相等的组合出现的期望值较低,在m = 3的情况下,由于条目数量仅为8,几乎所有组合中的“0”和“1”总数可能相等。但在m = 14的情况下,条目数量达到16,384,“0”和“1”总数极不相等的组合出现的可能性较高。对于少数者博弈,“0”和“1”总数极不相等的组合会降低智能体的性能,因此当m增大时,所有智能体的平均胜率必然降低,因为只有少数智能体能够获胜。

为了验证这一假设,我们计算了每个m个过去获胜组历史记录下所有智能体选择“0”的总数的平均值和标准差。对于每个m值,我们在100种策略表的情况下进行游戏并计算平均值。结果如下表所示:

m 平均值 σ
3 46.6 2.8
5 46.5 2.9
9 43.2 3.0
13 33.7 4.1

从表中可以看出,当m增大时,“0”的总数平均值低于m值较小时的情况。这意味着在m值较大时,“0”和“1”的总数差异较大,并且标准差也较大,这表明在每一轮游戏中平均值不稳定。因此,可以理解为当m较小时,胜率接近稳定的50%。

4.2 幂律形成机制(2)

关于策略表的计分规则,当智能体获胜时,所选策略表的分数增加1分;当失败时,分数减少1分。如果获胜和失败的概率接近相等,那么在这种情况下,策略表分数的变化可以看作是随机游走。已经知道,当某个值像随机游走一样变化时,分数为0或更高的周期的直方图的概率密度遵循幂律。因此,可以认为当m较小时,由于策略表分数的变化类似于随机游走,从而产生了幂律。

我们使用以下三种策略表计分规则进行了少数者博弈:
- 规则1 :智能体按顺序选择策略表,交换间隔随机设置。
- 规则2 :所选策略表获胜时加1分,但失败时减2分。
- 规则3 :如果智能体在一轮游戏中失败,即使当前策略表仍然具有最高分数,也会更换为下一个计分表。

结果显示,在这三种规则下都产生了极端的获胜智能体和失败智能体。

多智能体环境中基于自我评估的有效决策

5. 实验验证与结果分析

为了进一步验证上述关于幂律形成机制以及智能体行为与胜率关系的结论,我们进行了一系列实验。

首先,我们按照之前提到的三种不同计分规则(规则1、规则2、规则3)进行少数者博弈实验。在规则1下,智能体按顺序选择策略表且交换间隔随机。这种方式使得智能体的策略选择具有一定的随机性和周期性。在规则2中,获胜加1分,失败减2分,这种计分方式增加了失败的惩罚力度,可能会影响智能体的策略选择和行为模式。规则3则规定,一旦智能体失败,无论当前策略表分数高低,都更换为下一个计分表,这会促使智能体更频繁地更换策略。

实验结果表明,在这三种规则下都出现了极端的获胜智能体和失败智能体。这说明不同的计分规则对智能体的行为和最终的胜负结果产生了显著影响。例如,在规则2下,由于失败惩罚较大,一些智能体可能会变得更加保守,导致其策略选择范围变窄;而在规则3下,频繁更换策略表可能使部分智能体难以形成稳定的策略,从而影响其胜率。

我们还对不同参数组合(如不同的智能体数量n、策略表数量s和历史深度m)下的实验结果进行了详细分析。通过对比不同参数设置下的标准差、平均得分等指标,我们发现了一些规律。例如,当s较小时,m在3到6之间时,标准差最小,获胜智能体的平均数量最多,这与之前关于智能体涌现行为的分析结果一致。

实验规则 极端情况表现 可能影响的智能体行为
规则1 出现极端获胜和失败智能体 策略选择具有随机性和周期性
规则2 出现极端获胜和失败智能体 部分智能体策略选择更保守
规则3 出现极端获胜和失败智能体 智能体更频繁更换策略
graph LR
    A[实验规则] --> B[规则1]
    A --> C[规则2]
    A --> D[规则3]
    B --> E[极端胜负情况]
    C --> E
    D --> E
    E --> F[影响智能体行为]
6. 结论与展望

通过对少数者博弈中智能体行为和幂律形成机制的研究,我们得出了以下重要结论:
- 智能体行为中幂律的出现与胜率密切相关。高胜率的智能体行为更有可能呈现幂律特征,而低胜率的智能体则较少出现幂律。
- m值对智能体的胜率和幂律形成有显著影响。m较小时,智能体的胜率更稳定且接近50%,同时策略表分数变化类似于随机游走,从而产生幂律;而m较大时,“0”和“1”总数差异增大,胜率降低,幂律难以出现。
- 不同的策略表计分规则会影响智能体的行为和最终的胜负结果,可能导致极端的获胜和失败智能体出现。

这些结论对于理解多智能体系统中的行为和决策机制具有重要意义。在实际应用中,我们可以根据这些结论来优化多智能体系统的设计和策略制定。例如,在设计智能交通系统时,可以借鉴少数者博弈的思想,通过合理设置参数和计分规则,使车辆(智能体)的行驶决策更加高效,减少交通拥堵。

未来的研究方向可以包括:
- 进一步探索不同类型的多智能体系统中幂律的形成机制和应用。除了少数者博弈,其他类型的多智能体游戏或实际系统中的幂律现象可能具有不同的特点和规律。
- 研究如何通过调整参数和规则来更好地控制智能体的行为和系统的性能。例如,寻找最优的参数组合和计分规则,以实现系统的最大效率和稳定性。
- 结合机器学习和人工智能技术,使智能体能够自动学习和调整策略,以适应不同的环境和任务需求。

总之,多智能体环境中基于自我评估的有效决策研究是一个充满挑战和机遇的领域,未来的研究有望为智能系统的发展和应用带来更多的突破。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值