博弈论模型中的学习算法研究
博弈论是一种描述策略推理的数学方法。在博弈论意义上,游戏涉及选择行动的参与者,根据他们自己和其他参与者的选择,获得不同程度的奖励。自2005年以来,诺贝尔经济学奖已四次授予博弈论相关研究。
Éva Tardos,康奈尔大学计算机科学教授,曾获得计算机协会哥德尔奖和电气电子工程师学会约翰·冯·诺依曼奖章。她的研究专注于算法博弈论,即博弈论在算法设计中的应用。
2018年,Tardos获得某机构研究奖,致力于研究游戏中的学习问题:在重复进行同一游戏的迭代过程中,参与者能否学习到能够最大化其奖励的策略?游戏能否被构建,使得个体参与者的奖励最大化策略也能最大化共同利益?
"我最着迷的问题有三个层面,"Tardos说,“一是’如果人们学习,我们能对结果质量说什么?'另一个是’学习意味着什么?'当我观察用户行为时,人们实际满足哪些学习条件?”
“第三——也许在某些方面是最具操作性的——是’在变化环境中正确的学习形式是什么?'如果你是某中心,想要学习如何为产品定价,你的库存是多少?你有多少书籍?如果你在销售它们,库存就会减少。随着时间的推移存在某种遗留效应。这告诉你什么?在环境变化且存在遗留效应的情况下,正确的学习形式是什么?当然,人们是否以这种方式学习?”
学习概念
以足球点球为例,踢球者射向球门的右半部分或左半部分,守门员猜测扑救方向。在这个游戏的最简单博弈论模型中,如果守门员和踢球者选择相同方向,守门员获胜;如果他们选择不同方向,踢球者获胜。
在这个模型上,如果两个参与者都试图最大化获胜机会,他们的最优策略是随机选择左或右,两个方向的概率相等。如果一个参与者偏离该策略,另一个参与者就有机会提高获胜率。
游戏中没有参与者有单方面改变动机的策略集合称为纳什均衡。点球游戏是零和游戏:如果一个参与者获胜,另一个就失败。但许多现实世界场景——例如高峰时段选择驾驶路线——可以被建模为非零和游戏,它们也有纳什均衡。
关于博弈论学习的一个早期假设是,在游戏的重复迭代中,参与者会收敛到纳什均衡。但最近的研究表明这不太可能,因为复杂游戏的纳什均衡计算难度极高。
无遗憾学习
Tardos解释说,在许多情况下,博弈论学者已经接受了一个更宽松的学习标准,称为"无遗憾学习",其优势在于算法上可实现。
"如果存在一个单一策略,在一段时间内一直相当有效,那么请至少做到与那个策略一样好,"Tardos说。“如果有一条路线每天都能让你相当快地到达工作地点,你不必走那条路线,但如果你做得比那更差,那就出了问题。你的学习应该足够好,能够观察到那比你正在做的更好。这就叫做无遗憾学习。”
遗留效应
Tardos最近在博弈论学习方面的工作主要集中在具有遗留效应的游戏上。这些游戏的最佳学习算法是什么?在什么情况下学习会发生?学习到的策略与最优策略分布相比如何?
Tardos特别在两个应用背景下研究了这些问题:广告拍卖(广告商竞标网站广告空间)和数据包交换网络路由(我们在互联网上看到的那种)。
在广告拍卖的情况下,遗留效应是成功竞标广告会减少广告买家进行额外购买的预算。Tardos和她的同事分析了真实世界数据,得出结论:在广告拍卖中,无遗憾学习可以发生,但只适用于资源充足的广告买家。否则,预算限制阻止他们充分探索选项空间以识别良好策略。
在数据包交换路由的情况下,遗留效应是不成功的数据包传输导致发送方重新发送数据包,从而增加网络拥塞。Tardos和她的同事表明,学习可以确保系统性能效率,但前提是网络中的每个路由器能够同时处理足够的传入数据包。
然而,在这里,Tardos和她的同事的分析是理论性的,因此他们可以将参与者的学习策略与某个全知规划者根据发送方传输需求分配网络带宽的最优策略进行比较。他们发现,如果发送方只是试图学习最大化自身网络吞吐量的策略,那么为了确保每个人的数据包都能通过,路由器容量需要大约是最优情况下的两倍。
然而,在后续研究中,Tardos和她的一个学生表明,更好的学习算法可以将参与者的学习策略推向更接近最优。如果参与者足够耐心——如果他们坚持给定的传输策略足够长时间以获得其长期效用的可靠信号——那么学习将导致高效路由,仅需要约1.6倍的最优路由器容量。
这些是初步结果,但它们展示了在一组非常困难的相互关联问题上取得进展的方法。在正在进行的工作中,Tardos正在将相同的分析技术推广到产品定价和库存管理之间的关系,其中遗留效应是根据不同价格点的销售率的手头库存量。这对某中心来说是一个明显感兴趣的问题。
"有些问题我们没有回答,但很乐意回答,"Tardos说。“这些都是正在进行的项目。所以也许我们最终会回答它们。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
2064

被折叠的 条评论
为什么被折叠?



