12、混合策略游戏中随机选择相关的行为与神经变异性

混合策略游戏中随机选择相关的行为与神经变异性

在决策过程中,人类和动物的行为反应常常表现出显著的变异性。即使在相同的物理条件下重复测试,反应时间、动作轨迹等都会有所不同,决策也往往是随机做出的。这种行为变异性背后的神经机制,是系统神经科学中的一个重要问题。

1. 行为与决策中的变异性

人类和动物的行为反应存在大量变异性。例如,反应时间在每次试验中都会变化,重复执行相同动作时,动作的空间轨迹也不固定。决策方面,我们会随机在不同餐厅或食物类型之间切换,即便奖励恒定,也会改变选择。

在决策问题中,最优策略有时是确定性地选择特定选项。但实际情况中,人们选择高概率奖励的概率常与奖励概率相匹配,而非只选高概率奖励。不过,随机行为在某些情况下是理想甚至最优的。当对不同行动的预期结果和概率不完全了解时,决策者需要探索以提高奖励概率估计的准确性;在竞争社交环境中,随机选择可避免被对手利用。

2. 竞争游戏中的随机行为

决策可分为个体决策和群体决策。个体决策中,当能为不同行动分配效用值,决策者总是选择效用最大的行动时,选择被认为是理性的。但人类的选择行为常偏离理性选择理论的预测,为此提出了许多替代理论。

在社会情境中理解决策过程更困难,因为选择特定行动的预期结果会因其他决策者的行动而变化。博弈论中用收益矩阵来总结这种情况,例如囚徒困境的收益矩阵。在囚徒困境中,每个玩家在合作和背叛之间选择,背叛者在对方合作时获得最大收益,而合作方在对方背叛时获得最小收益。博弈论中的纳什均衡是指所有玩家的一组选择,没有玩家能通过单独改变策略来增加收益。在囚徒困境中,相互背叛是唯一的纳什均衡,但人们并不总是选择纳什均衡策略。

有些游戏的纳

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值