ADP论文学习-零和或非零和博弈问题

原创已于 2024-03-25 17:35:21 修改 · 300 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记

于 2024-03-25 16:36:52 首次发布

文章探讨了事件触发的确定性策略梯度在处理未知离散时间非线性系统的零和与非零和游戏中的控制问题。数据驱动的自适应动态编程方法被应用于多玩家系统中，以实现鲁棒控制，尤其是在2022年和2023年的研究中由YongweiZhang等人提出的相关进展。

Event-Triggered Control of Discrete-Time Zero-Sum Games via Deterministic Policy Gradient Adaptive Dynamic Programming ,2022,Yongwei Zhang ,BoZhao , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Shunchao Zhang

Data-driven adaptive dynamic programming schemes for non-zero-sum games of unknown discrete-time nonlinear systems He Jiang, Huaguang Zhang∗, Kun Zhang, Xiaohong Cui

Adaptive Dynamic Programming-Based Event-Triggered Robust Control for Multiplayer Nonzero-Sum Games With Unknown Dynamics ，2023，Yongwei Zhang , Member, IEEE,BoZhao , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Shunchao Zhang

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

LucienLSA

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

[论文笔记]DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning

日积月累，天道酬勤

03-11

1013

本篇论教你如何训练一个强化学习模型来斗地主

【论文阅读】DouZero+: Improving DouDizhu AI by Opponent Modeling and Coach-guided Learning

见见大魔王

10-23

1909

使用深度强化学习来斗地主

参与评论您还未登录，请先登录后发表或查看评论

ICML 2021] DouZero: 从零开始通过自我博弈强化学习来学打斗地主 Github

强化学习曾小健

02-17

1614

DouZero是一个为斗地主设计的强化学习框架。斗地主十分具有挑战性。它包含合作、竞争、非完全信息、庞大的状态空间。斗地主也有非常大的动作空间，并且每一步合法的牌型会非常不一样。DouZero由快手AI平台部开发。

【论文阅读】DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning

见见大魔王

10-12

2583

来用强化学习斗地主吧

自适应动态规划硕士博士论文学习

DarlingLSA的博客

04-01

1228

强化学习关注随机过程中的序贯决策问题，而自适应动态规划关注动态系统的控制问题。吸引域：系统渐近稳定的区域。

基于强化学习的综合能源系统管理综述-笔记

YUEsheng416的博客

07-05

3682

这篇笔记主要突出强化学习的特点以及于综合能源系统管理上的应用，着重于引出后文的可研究点。具体的方法论文可以参见最后的推荐论文，大都为近年顶刊。

结合ADP与MCTS算法的五子棋人工智能研究论文

weixin_35753291的博客

08-20

798

自适应动态规划（ADP）是一种将动态规划（DP）与机器学习结合的技术，旨在解决传统动态规划在面对大规模和高维状态空间时遇到的“维数灾难”。ADP利用模型或数据驱动的方式，通过学习价值函数或策略函数来逼近最优解。蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）是一种启发式搜索算法，近年来在许多领域获得了广泛的关注和应用，特别是在计算机博弈领域。MCTS算法最早由Brugman在1993年提出，其核心思想是结合了随机模拟（蒙特卡洛方法）和树形搜索。

【论文阅读】PerfectDou: Dominating DouDizhu with Perfect Information Distillation

见见大魔王

10-16

1886

在本文的实现中，奖励的计算是在一轮游戏后进行的，从而提高训练效率。

《强化学习周刊》第59期：GCRL、DNN-RCUC&PD-MORL

BAAIBeijing的博客

08-26

1036

No.59智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：方式1：扫描下面二维码，进入《强化学习周刊》主页，选择“关注TA”。方式2：点击本文下方的“阅读原文”，进入《强化学习周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。关于周刊强化学习作为人工智能领域研究热点之一，其研...

精选资源

求解非零和微分对策的自适应动态规划

04-04

非零和微分对策通常是指在博弈论中，参与者之间的利益不是完全对立的，而是存在着合作和竞争的复杂关系。在这种情况下，每个玩家会独立选择最优策略，以最小化自己的性能目标，这些性能目标依赖于自己和其他所有玩家...

精选资源

基于局部值迭代的离散非线性系统最优自学习控制方案

03-18

之后，研究者们还讨论了零和及非零和博弈的策略迭代算法，以及使用多智能体系统通过策略迭代算法得到最优控制的情况。此外，还有研究利用模糊近似结构得到多智能体最优控制，以及为离散时间非线性系统开发的策略迭代...

在线鲁棒自适应动态规划：连续时间线性系统的双玩家零和博弈

"这篇研究论文是关于‘Robust Adaptive Dynamic Programming of Two-Player Zero-Sum Games for Continuous-Time Linear Systems’，主要探讨在线强适应动态规划算法在处理连续时间未知线性系统中的双玩家零和游戏...

Javaweb 学习笔记——html+css

hssfscv的博客

12-18

923

以上是Javaweb中关于前端html和css的相关内容，主要制作了两个页面，了解了如何使用AI生成我们需要的内容，有利于了解前端知识，接下来将进行剩余前端知识的学习

【学习笔记】安全模型

最新发布

tpriwwq的专栏

12-22

456

安全模型是指描述安全重要方面（机密性，完整性等）及其与系统行为的关系（允许/拒绝访问、加密/解密数据等）的框架。

CAPL学习-AVB交互层-媒体函数1-回调&基本函数

车载网络测试工程师的博客

12-21

811

可基于对象（如 MediaGetMediaType 返回的媒体类型对象）检索属性。可基于对象（如 MediaGetMediaType 返回的媒体类型对象）设置属性。可基于对象（如 MediaGetMediaType 返回的媒体类型对象）设置属性。可基于对象（如 MediaGetMediaType 返回的媒体类型对象）检索属性。可基于对象（如 MediaGetMediaType 返回的媒体类型对象）设置属性。可基于对象（如 MediaGetMediaType 返回的媒体类型对象）检索属性。

Java 学习路线及学习周期

前端金牌摸鱼达人

12-17

1666

Java 学习路线及学习周期

Ape.Volo项目源码学习（4：限流设置）

gc_2299的博客

12-20

325

学习并记录项目中接口限流的用法。

使用 Python 语言从 0 到 1 搭建完整 Web UI自动化测试学习系列 34--基础知识 9--文件上传功能

我的xiaodoujiao，软件测试人员

12-21

733

Web UI自动化测试学习系列第三十四篇

【每天一个AI小知识】：什么是多模态学习？

码道源码

12-20

795

多模态学习是人工智能的重要分支，让AI能同时处理文本、图像、音频等多种数据形式。本文系统介绍了多模态学习的概念、发展历程、核心技术（如模态融合、对比学习）、主流模型（CLIP、GPT-4、Gemini等）及其在智能助手、内容创作等领域的应用。文章还探讨了当前面临的模态异质性、数据稀缺性等挑战，并展望了全模态学习、实时理解等未来趋势。多模态学习正推动AI向更接近人类智能的方向发展，同时也引发了对智能本质、人机关系等哲学思考。