22、信号博弈中的学习规则与意义生成

信号博弈中的学习规则与意义生成

在信号博弈的研究中,学习规则对于理解信息传递和意义生成至关重要。不同的学习规则有着不同的特点和效果,下面我们将详细探讨几种常见的学习规则。

1. 短期记忆学习规则

短期记忆学习规则只考虑最近一轮的游戏情况。其中,“赢留输换”(Win - stay/Lose - switch)规则最初由Robbins在不同背景下提出,后被Nowak和Sigmund应用于博弈论情境。该规则下,玩家在“赢”时会保留最近的策略,“输”时则切换到其他策略。在信号博弈中,由于只有两种收益,输赢的界定相对简单。

Barrett和Zollman研究了“赢留输换”和类似的“赢留输随机”(Win - stay/Lose - randomize)学习规则。他们发现,“赢留输随机”规则在学习应急计划和单个状态与信号时,最终会收敛到完美信号传递。然而,“赢留输换”规则可能导致玩家永远无法协调,因为强制切换策略可能使玩家陷入困境。

另一种稍复杂的短期记忆学习规则是“短视最佳反应”(myopic best response)或“古诺调整动态”(Cournot adjustment dynamics)。玩家根据对手上一轮的玩法做出最佳反应,这需要玩家具备一定的计算能力,能算出不同行动的结果。在2状态/2信号/2行动的信号博弈中,该规则和“赢留输换”规则一样,可能会陷入无限循环。目前,关于该规则与其他短期记忆学习规则的比较研究较少。

2. 无限记忆学习规则

Herrnstein强化学习是一种只考虑自身行动和收益,不进行反事实推理的学习规则。它源于Herrnstein的匹配定律,即个体采取某一行动的概率与该行动所获得的奖励总和成正比。其概率计算公式为:
[P(a)=\frac{w_a}{\sum_{x}w_x}]
其中,(w_a)是采取行动(a)的总奖励,分母是过去所有行动的总奖励。这个将过去的成功转化为当前行动倾向的函数被称为“线性响应规则”。

在最简单的2状态、2信号、2行动且状态等概率的情况下,已证明独立的发送者和接收者采用强化学习会(几乎肯定)收敛到信号系统。但对于更复杂的情况,大多是通过模拟研究得出的结果。Barrett发现,在信号、状态和行动更多的信号博弈中,强化学习通常会收敛到部分合并均衡。随着状态、信号和行动数量的增加,收敛到部分合并均衡的比例也会上升。当状态概率不相等时,会出现类似复制动态的失败情况,如在2状态、2信号、2行动的博弈中,有时会观察到完全合并均衡。

Herrnstein强化学习存在持续的随机性,但随着时间推移,随机性的幅度会减小。模拟结果表明,这种随机性不足以避免部分合并均衡,与选择 - 突变动态中的随机性效果不同。此外,Herrnstein强化学习不考虑对手的行动信息和自身的其他可能反应。可以对其进行修改,例如通过观察过去的玩法来“学习”对手的策略,然后做出最佳反应,这就是所谓的“虚拟玩法”,但在信号博弈中的研究并不广泛。

3. 类似强化模型

为了引入更大的持续随机性,可以对Herrnstein强化学习进行多种修改。以下是几种常见的修改方式:
- 修改倾向更新方式 :通常假设研究的游戏没有负收益,以避免倾向变为负数导致概率不合理。Barrett研究了失败获得负收益的模型,即“惩罚”机制,这会降低采取该行动的概率。模拟结果表明,不同程度的惩罚会显著减小部分合并均衡的吸引域,产生更高效的语言,但这取决于不同奖励和惩罚的幅度。目前,该模型尚未研究状态概率不相等的游戏。
- 引入随机冲击 :Barrett考虑了倾向受到随机冲击的模型。随机冲击用一个期望值为1的随机数(\alpha)表示,每一轮倾向都会乘以(\alpha),产生随机扰动。结果表明,这种随机冲击足以消除具有两个以上状态、信号和行动的信号博弈中的部分合并均衡,但同样未研究状态概率不相等的情况。
- 修改响应规则 :Skyrms考虑了使用逻辑(或指数)响应规则来确定概率的模型,公式为:
[P(a)=\frac{e^{\lambda w_a}}{\sum_{x}e^{\lambda w_x}}]
这种指数响应规则改变了倾向转化为行动概率的方式。当(\lambda)较小时,初始玩法更随机,后期玩法更具确定性,比Herrnstein强化学习有更多的早期探索。对于状态概率不相等和状态、信号、行动数量较多的情况,学习者几乎总能学会信号传递。

下面用一个表格总结这些学习规则的特点:
|学习规则|特点|适用情况|局限性|
| ---- | ---- | ---- | ---- |
|赢留输换|输赢决定策略保留或切换|简单信号博弈|可能导致玩家无法协调|
|赢留输随机|输赢后随机选择策略|多种信号博弈场景|暂无明确局限性|
|短视最佳反应|根据对手上一轮玩法做最佳反应|2状态/2信号/2行动博弈|可能陷入无限循环|
|Herrnstein强化学习|基于自身行动奖励计算概率|状态等概率的简单博弈|可能收敛到部分合并均衡|
|修改倾向更新|引入负收益惩罚机制|部分信号博弈|未研究状态概率不等情况|
|引入随机冲击|倾向受随机数扰动|多状态信号博弈|未研究状态概率不等情况|
|指数响应规则|用指数函数确定概率|状态概率不等及多元素博弈|暂无明确局限性|

我们可以用mermaid流程图来展示这些学习规则的大致流程:

graph LR
    A[开始] --> B{是否短期记忆规则}
    B -- 是 --> C{赢留输换或赢留输随机?}
    C -- 赢留输换 --> D[根据输赢决定策略]
    C -- 赢留输随机 --> E[输赢后随机选择策略]
    B -- 否 --> F{是否Herrnstein强化学习}
    F -- 是 --> G[计算行动概率]
    F -- 否 --> H{是否修改倾向更新}
    H -- 是 --> I[引入负收益惩罚]
    H -- 否 --> J{是否引入随机冲击}
    J -- 是 --> K[倾向受随机扰动]
    J -- 否 --> L[指数响应规则确定概率]

这些学习规则在信号博弈中各有优劣,不同的规则适用于不同的博弈场景。通过对这些规则的研究,我们可以更好地理解信息传递和意义生成的机制。在后续的研究中,我们将继续探讨更激进的学习规则修改方式以及它们在信号博弈中的应用。

信号博弈中的学习规则与意义生成

4. 更激进的修改规则

除了上述对Herrnstein强化学习的常规修改,还有一些更激进的修改方式。

Barrett和Zollman考虑了一种用加权平均更新权重,并根据指数响应计算倾向的模型。对于特定的参数值,在3状态、3信号、3行动的游戏中,个体能够学会最优信号传递。这主要是因为该学习规则类似于“赢留输随机”,不断探索直到成功,然后锁定产生成功的策略。

他们还研究了“可调参考点”(Adjustable Reference Point,ARP)学习模型。该模型最初用于解释人类在游戏中的行为,旨在捕捉Herrnstein强化学习所不具备的四个特征:
1. 成功和失败的定义可以根据过去的经验演变。
2. 对“成功”和“失败”的反应可以不同。
3. 更久远的奖励和惩罚影响较小,即具有遗忘过去的能力。
4. 一个领域的奖励会对其他领域产生影响。

研究发现,ARP模型在收敛到接近最优的信号系统方面显著优于Herrnstein强化学习。他们认为这种成功归因于特征(3)引入的持续随机性,即遗忘过去的能力。其他一些同样抛弃过去经验的学习规则也表现较好,这进一步支持了这一结论。

5. 总结与启示

总体而言,在初始混乱的情况下,确实有可能出现一些成功的交流。进化模型和个体学习模型通常都会导致一定程度的成功交流,但并非总是能保证完美的交流。在具有两个以上状态、信号和行动的信号博弈中,以及状态概率不相等的游戏中,完美信号传递的出现并不确定。

学习模型和进化模型之间存在一些明显的相似之处。例如,复制动态的结果与Herrnstein强化学习的结果相符,选择 - 突变动态(在适当的参数值下)收敛到扰动信号系统,这与ARP学习模型的结果一致。

许多收敛到信号系统的学习规则具有一个有趣的特点:它们开始时会探索可能性空间,然后以高概率采用成功的策略。像“赢留输随机”和具有指数响应的强化模型都有这样的特点。此外,那些能够遗忘过去的学习规则似乎比不能遗忘过去的规则表现更好,如ARP学习、引入随机冲击的Herrnstein强化学习、平滑强化学习和“赢留输随机”等。

这些学习规则在过程早期至少具有较大的持续随机性,这一特征与选择 - 突变动态在进化过程中始终具有的持续随机性有部分相似之处。现有关于交流进化的文献结果表明,为了使群体或个体收敛到最优信号传递,这种随机性是必要的。

下面通过一个表格来对比不同学习规则的特点和效果:
|学习规则|特点|效果|是否遗忘过去|随机性特点|
| ---- | ---- | ---- | ---- | ---- |
|赢留输换|根据输赢决定策略保留或切换|可能陷入不协调|否|无明显持续随机性|
|赢留输随机|输赢后随机选择策略|可收敛到完美信号传递|是|有早期探索随机性|
|短视最佳反应|根据对手上轮玩法做最佳反应|可能陷入无限循环|否|无明显持续随机性|
|Herrnstein强化学习|基于自身行动奖励计算概率|可能收敛到部分合并均衡|否|随机性随时间减小|
|修改倾向更新|引入负收益惩罚机制|减小部分合并均衡吸引域|否|无明显持续随机性|
|引入随机冲击|倾向受随机数扰动|消除部分合并均衡|否|有持续随机扰动|
|指数响应规则|用指数函数确定概率|适用于多种复杂情况|否|早期随机性大|
|加权平均更新权重|用加权平均更新权重并指数响应|学会最优信号传递|是|有早期探索随机性|
|ARP学习模型|具备四个特殊特征|收敛到接近最优信号系统|是|有持续随机性|

我们再用mermaid流程图来展示不同类型学习规则的整体关系和决策过程:

graph LR
    A[开始研究学习规则] --> B{是否短期记忆规则}
    B -- 是 --> C{赢留输换或赢留输随机?}
    C -- 赢留输换 --> D[根据输赢决定策略]
    C -- 赢留输随机 --> E[输赢后随机选择策略]
    B -- 否 --> F{是否Herrnstein强化学习及其修改?}
    F -- 是 --> G{是否常规修改?}
    G -- 是 --> H{修改倾向更新或引入随机冲击?}
    H -- 修改倾向更新 --> I[引入负收益惩罚]
    H -- 引入随机冲击 --> J[倾向受随机扰动]
    G -- 否 --> K{是否加权平均更新权重?}
    K -- 是 --> L[加权平均更新并指数响应]
    K -- 否 --> M[ARP学习模型]
    F -- 否 --> N[短视最佳反应]

通过对这些学习规则的深入研究,我们可以更好地理解信号博弈中信息传递和意义生成的复杂机制,为进一步探索和优化交流系统提供理论支持。在实际应用中,可以根据具体的博弈场景和需求选择合适的学习规则,以促进更有效的交流和信息传递。

【CNN-GRU-Attention】基于卷积神经网络和门控循环单元网络结合注意力机制的多变量回归预测研究(Matlab代码实现)内容概要:本文介绍了基于卷积神经网络(CNN)、门控循环单元网络(GRU)注意力机制(Attention)相结合的多变量回归预测模型研究,重点利用Matlab实现该深度学习模型的构建仿真。该模型通过CNN提取输入数据的局部特征,利用GRU捕捉时间序列的长期依赖关系,并引入注意力机制增强关键时间步的权重,从而提升多变量时间序列回归预测的精度鲁棒性。文中涵盖了模型架构设计、训练流程、参数调优及实际案例验证,适用于复杂非线性系统的预测任务。; 适合人群:具备一定机器学习深度学习基础,熟悉Matlab编程环境,从事科研或工程应用的研究生、科研人员及算法工程师,尤其适合关注时间序列预测、能源预测、智能优化等方向的技术人员。; 使用场景及目标:①应用于风电功率预测、负荷预测、交通流量预测等多变量时间序列回归任务;②帮助读者掌握CNN-GRU-Attention混合模型的设计思路Matlab实现方法;③为学术研究、毕业论文或项目开发提供可复现的代码参考和技术支持。; 阅读建议:建议读者结合Matlab代码逐模块理解模型实现细节,重点关注数据预处理、网络结构搭建注意力机制的嵌入方式,并通过调整超参数和更换数据集进行实验验证,以深化对模型性能影响因素的理解。
下载前必看:https://pan.quark.cn/s/da7147b0e738 《商品采购管理系统详解》商品采购管理系统是一款依托数据库技术,为中小企业量身定制的高效且易于操作的应用软件。 该系统借助VC++编程语言完成开发,致力于改进采购流程,增强企业管理效能,尤其适合初学者开展学习实践活动。 在此之后,我们将详细剖析该系统的各项核心功能及其实现机制。 1. **VC++ 开发环境**: VC++是微软公司推出的集成开发平台,支持C++编程,具备卓越的Windows应用程序开发性能。 在该系统中,VC++作为核心编程语言,负责实现用户界面、业务逻辑以及数据处理等关键功能。 2. **数据库基础**: 商品采购管理系统的核心在于数据库管理,常用的如SQL Server或MySQL等数据库系统。 数据库用于保存商品信息、供应商资料、采购订单等核心数据。 借助SQL(结构化查询语言)进行数据的增加、删除、修改和查询操作,确保信息的精确性和即时性。 3. **商品管理**: 系统内含商品信息管理模块,涵盖商品名称、规格、价格、库存等关键字段。 借助界面,用户能够便捷地录入、调整和查询商品信息,实现库存的动态调控。 4. **供应商管理**: 供应商信息在采购环节中占据重要地位,系统提供供应商注册、联系方式记录、信用评价等功能,助力企业构建稳固的供应链体系。 5. **采购订单管理**: 采购订单是采购流程的关键环节,系统支持订单的生成、审批、执行和追踪。 通过自动化处理,减少人为失误,提升工作效率。 6. **报表分析**: 系统具备数据分析能力,能够生成采购报表、库存报表等,帮助企业掌握采购成本、库存周转率等关键数据,为决策提供支持。 7. **用户界面设计**: 依托VC++的MF...
【DC-AC】使用了H桥MOSFET进行开关,电感器作为滤波器,R和C作为负载目标是产生150V的双极输出和4安培(双极)的电流(Simulink仿真实现)内容概要:本文档围绕一个基于Simulink的电力电子系统仿真项目展开,重点介绍了一种采用H桥MOSFET进行开关操作的DC-AC逆变电路设计,结合电感器作为滤波元件,R和C构成负载,旨在实现150V双极性输出电压和4A双极性电流的仿真目标。文中详细描述了系统结构、关键器件选型及控制策略,展示了通过Simulink平台完成建模仿真的全过程,并强调了参数调整波形分析的重要性,以确保输出符合设计要求。此外,文档还提及该仿真模型在电力变换、新能源并网等领域的应用潜力。; 适合人群:具备电力电子基础知识和Simulink仿真经验的高校学生、科研人员及从事电力系统、新能源技术等相关领域的工程技术人员;熟悉电路拓扑基本控制理论的初级至中级研究人员。; 使用场景及目标:①用于教学演示H桥逆变器的工作原理滤波设计;②支撑科研项目中对双极性电源系统的性能验证;③为实际工程中DC-AC转换器的设计优化提供仿真依据和技术参考;④帮助理解MOSFET开关行为、LC滤波机制及负载响应特性。; 阅读建议:建议读者结合Simulink模型文件同步操作,重点关注H桥驱动信号生成、电感电容参数选取及输出波形的傅里叶分析,建议在仿真过程中逐步调试开关频率占空比,观察其对输出电压电流的影响,以深化对逆变系统动态特性的理解。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值