12、混合策略游戏中随机选择相关的行为与神经变异性

c7d8e9

于 2025-11-13 15:20:43 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：解码大脑的随机之美文章标签：混合策略随机选择强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c7d8e9/article/details/154897259

解码大脑的随机之美专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

混合策略游戏中随机选择相关的行为与神经变异性

在决策过程中，人类和动物的行为反应常常表现出显著的变异性。即使在相同的物理条件下重复测试，反应时间、动作轨迹等都会有所不同，决策也往往是随机做出的。这种行为变异性背后的神经机制，是系统神经科学中的一个重要问题。

1. 行为与决策中的变异性

人类和动物的行为反应存在大量变异性。例如，反应时间在每次试验中都会变化，重复执行相同动作时，动作的空间轨迹也不固定。决策方面，我们会随机在不同餐厅或食物类型之间切换，即便奖励恒定，也会改变选择。

在决策问题中，最优策略有时是确定性地选择特定选项。但实际情况中，人们选择高概率奖励的概率常与奖励概率相匹配，而非只选高概率奖励。不过，随机行为在某些情况下是理想甚至最优的。当对不同行动的预期结果和概率不完全了解时，决策者需要探索以提高奖励概率估计的准确性；在竞争社交环境中，随机选择可避免被对手利用。

2. 竞争游戏中的随机行为

决策可分为个体决策和群体决策。个体决策中，当能为不同行动分配效用值，决策者总是选择效用最大的行动时，选择被认为是理性的。但人类的选择行为常偏离理性选择理论的预测，为此提出了许多替代理论。

在社会情境中理解决策过程更困难，因为选择特定行动的预期结果会因其他决策者的行动而变化。博弈论中用收益矩阵来总结这种情况，例如囚徒困境的收益矩阵。在囚徒困境中，每个玩家在合作和背叛之间选择，背叛者在对方合作时获得最大收益，而合作方在对方背叛时获得最小收益。博弈论中的纳什均衡是指所有玩家的一组选择，没有玩家能通过单独改变策略来增加收益。在囚徒困境中，相互背叛是唯一的纳什均衡，但人们并不总是选择纳什均衡策略。

有些游戏的纳

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。