
论文笔记
文章平均质量分 94
强殖装甲凯普
好奇,学习,探索,琢磨
以上纯属瞎编
展开
-
[NIPS2020] Pipeline PSRO A Scalable Approach for Finding Approximate Nash Equilibria in Large Games
文章目录前言Background and Related WorkPipeline Policy Space Response Oracles (P2SRO)AnalysisResultsRandom Symmetric Normal Form GamesLeduc PokerBarrage Stratego前言人工智能和算法博弈论的一个长期目标是开发一种通用算法,该算法能够在大型不完美信息两人零和游戏中找到近似纳什均衡。 AlphaStar和OpenAI Five这些自博弈强化学习的变体虽然在大型游戏原创 2022-03-30 19:50:41 · 502 阅读 · 0 评论 -
[2015.5.21] Real-Time Bidding Benchmarking with iPinYou Dataset 笔记
文章目录前言The iPinYou RTB DatasetData FormatBasic StatisticsUser FeedbackBidding BehavioureCPC任务和协议Task DescriptionTraining Framework前言RTB似乎没有什么公开的数据集或环境,有一些相关问题,好多论文都不开源,比如阿里的,他们大多都是基于淘宝的数据、或是他们自己的仿真系统做实验。当然可以理解,但是也希望有一些开源项目,特别是RL做RTB的,CTR预测的倒是有DeepCTR这种。我看原创 2022-01-07 19:49:53 · 599 阅读 · 0 评论 -
Real-Time Bidding with Multi-Agent Reinforcement Learning in Display Advertising 笔记
文章目录前言淘宝展示广告系统相关工作多智能体广告竞价RTB as a Stochastic GameAgent ClustersStateActionReward and TransitionBidding by Multi-Agent RLImplementation & Distributed ArchitectureBalance Computing Efficiency and Bid GranularityHandle Impression-Level Information Summar原创 2021-12-17 17:05:59 · 719 阅读 · 0 评论 -
[NIPS2017] A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning 笔记
文章目录前言前言为了实现通用智能,agent需要学会在共享的环境中与彼此交互,这就是MARL的挑战。最简单的形式是independent reinforcement learning (InRL),但在训练时往往会过拟合到其他人的策略,导致执行时不能有效泛化。...原创 2021-11-29 22:11:22 · 1513 阅读 · 0 评论 -
[ICML2019] Open-ended Learning in Symmetric Zero-sum Games
文章目录前言Functional-form games (FFGs)前言国际象棋和扑克等零和博弈抽象地是评估agent对的函数,例如将它们标记为“赢家”和“输家”。如果博弈是近似传递的,那么self-play会生成强度增加的agent序列。然而,非传递博弈,如石头剪刀布,会表现出策略循环,并且不再有明确的目标——我们希望agent增加实力,但针对谁是不清楚的。作者引入了一个几何框架,用于在零和博弈中制定agent目标,以构建产生开放式学习的自适应目标序列。该框架允许我们对非传递博弈中的群体表现进行推理,原创 2021-11-10 17:12:43 · 851 阅读 · 0 评论 -
TStarBot-X: An Open-Sourced and Comprehensive Study for Efficient League Training in StarCraft II FG
文章目录前言前言DeepMind 的 AlphaStar 是星际争霸 II 中的 grandmaster 级人工智能,可以使用同样的动作空间和操作与人类一起玩。TStarBot-X 是一个新 AI agent,它在更少的计算量级下进行训练,可以与专业的人类玩家竞争。TStarBot-X 利用了 AlphaStar 中引入的重要技术,并且还受益于大量的创新,包括新的联赛训练方法、新颖的多agent角色、规则引导的策略搜索、稳定的策略改进、轻量级神经网络架构和模仿学习中的重要性采样等。在计算规模较小的情况下原创 2021-08-18 17:33:27 · 374 阅读 · 0 评论 -
MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning 论文笔记
文章目录前言前言基于群的多智能体强化学习 (PB-MARL) 是指与强化学习 (RL) 算法嵌套的一系列方法,它产生出现自耦合的群动态的自生成任务序列。通过利用自动课程来诱导一系列不同的紧急策略,PB-MARL 在处理多智能体任务方面取得了令人瞩目的成功。尽管分布式 RL 框架的现有技术非常出色,但由于涉及异构策略交互的采样、训练和评估之间的多个嵌套工作负载的额外复杂性,PB-MARL 对并行化训练框架提出了新的挑战。为了解决这些问题,我们提出了 MALib,这是一种用于 PB-MARL 的可扩展且高效原创 2021-07-08 14:24:06 · 741 阅读 · 0 评论 -
TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning
文章目录前言ArchitectureMathematical SettingsDesignActorLearnerInfServerModelPoolLeagueMgrSystem-Level DesignLarge-scale Run and KubernetesCode StructureArenaTPoliciesTLeagueExtension前言只要有环境,那么数据可以说是无限的,并且复杂环境中rl训练需要的数据量往往很大,如何高效地挖掘环境中的数据是用rl解决实际问题的痛点。基于竞争性自我原创 2021-06-10 00:45:26 · 633 阅读 · 5 评论 -
Incremental multi-step Q-learning 笔记
文章目录前言TD(λ)TD(\lambda)TD(λ)Q(λ)Q(\lambda)Q(λ)-learning前言这篇文章介绍了Q(lambda)算法。资格迹这类算法网上有很多资料,但大都是sutton书里的,看完往往不知道怎么结合到深度里,特别是TD(lambda)。这篇文章里有一些化简得到的公式,借助它们可以方便地在深度里实现TD(lambda)和Q(lambda)。此博客也相当于在介绍资格迹。此文章作者2014年在researchgate上传了一个,相比1996年的内容略有出入,本文结合了两篇并对原创 2021-03-24 20:13:06 · 336 阅读 · 0 评论 -
RIIT: Rethinking the Importance of Implementation Tricks in Multi-Agent Reinforcement Learning 笔记
文章目录前言Importance of TricksOptimization资格迹Replay Buffer SizeRollout Process NumberExploration StepsReward ShapingTricks Overall ImpactRethinking and AnalysisOur BenchmarksAlbation Study of MonotonicityTheoretical Analysis前言这篇文章很不错,其指出了当前很多值分解类方法所谓的改进其实名不副原创 2021-03-20 16:57:50 · 664 阅读 · 1 评论 -
Qatten: A General Framework for Cooperative Multiagent Reinforcement Learning 笔记
文章目录前言Theoretical Analysis of Global and Individual Q-valuesThe Practical Implementation of Qatten前言还不知道发在了哪里。该文章认为之前的方法是强加了 QtotQ_{tot}Qtot 和 QiQ_iQi 之间的某种假设,缺少理论基础。除此之外,他们在将个体 QiQ^iQi 转为 QtotQ_{tot}Qtot 时,没有明确地考虑个体对整个系统agent级别的影响。Theoretical Analys原创 2020-12-15 17:03:05 · 789 阅读 · 0 评论 -
[ICLR2021] QPLEX: Duplex Dueling Multi-Agent Q-Learning 笔记
文章目录前言QPLEX: DUPLEX DUELING MULTI-AGENT Q-LEARNINGADVANTAGE-BASED IGMTHE QPLEX ARCHITECTURE实验MATRIX GAMES前言该文章应该是线性值分解这类方法的集大成之作了,结构已经相当复杂了,不知道后面的线性值分解方法会怎么做。QPLEX: DUPLEX DUELING MULTI-AGENT Q-LEARNINGADVANTAGE-BASED IGM从Dueling DQN中的分解 Q=V+AQ=V+AQ=V原创 2020-12-12 22:13:33 · 984 阅读 · 0 评论 -
Towards Understanding Linear Value Decomposition in Cooperative Multi-Agent Q-Learning 笔记
文章目录前言正文前言暂时还不知道发哪了,估计AAMAS?后续知道了会更新正文尽管线性值分解的MARL算法在实验上取得了成功,但是理论上还没有很好的理解。由于其有限的表达复杂度,标准贝尔曼更新在线性值分解的联合动作值函数类中不是一个闭算子(设X,Y均为banach空间,T是D(T)⊂X→YD(T)\subset X\rightarrow YD(T)⊂X→Y的线性算子。对于任意xn∈D(T)x_n\in D(T)xn∈D(T),若由xn→x,Txn→yx_n \rightarrow x, Tx_n\r原创 2020-12-03 19:01:31 · 612 阅读 · 0 评论 -
[ICML2017] Averaged-DQN: Variance Reduction and Stabilization for Deep Reinforcement Learning 论文笔记
文章目录前言Averaged DQNOverestimation and Approximation Errors前言DRL train起来是困难的,因为存在instability和variability,这也会影响其表现。寻找合适的方式让训练变得平稳是比较关键的。以往的算法通常是在线性函数逼近的情况下分析的,其在温和的假设下保证收敛。但现实生活的问题通常包含高维输入,使得线性函数逼近方法依赖手工工程特征来表示特定问题的状态,这就降低了agent的灵活性。因此需要有表达力和灵活性的非线性函数估计,除了一原创 2020-10-29 21:56:15 · 659 阅读 · 0 评论 -
离线强化学习概述
文章目录前言正文前言文章内容节选自Offline Reinforcement Learning Tutorial, Review, and Perspectives on Open Problems正文在缺乏仿真,并且与环境交互成本高昂时,如何利用之前收集的数据为后续在线地强化学习奠定基础是一个关键问题。离线强化学习是解决方法之一。强化学习为基于学习的控制提供了一种数学形式。通过强化学习,我们可以自动获得以策略为代表的接近最优的行为技能,以优化用户指定的奖励函数。奖励函数定义了智能体应该做什么,而原创 2020-10-27 19:35:37 · 3036 阅读 · 0 评论 -
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems 笔记
文章目录introductionoffline RL为什么困难总结introduction强化学习为基于学习的控制提供了一种数学形式。通过强化学习,我们可以自动获得以策略为代表的接近最优的行为技能,以优化用户指定的奖励函数。奖励函数定义了代理应该做什么,而强化学习算法决定了如何做。几十年来,强化学习算法一直是一个活跃的研究领域,在强化学习中引入了有效的高容量函数逼近器(deep neural networks),以及有效的训练算法,使得强化学习方法在强化学习中取得了很好的效果广泛的领域。然而,强化学习原创 2020-10-29 12:38:15 · 1030 阅读 · 0 评论 -
[NIPS2020] Weighted QMIX: Expanding Monotonic Value Function Factorisation 笔记
文章目录前言IntroductionQMIX Operator这个算子的属性前言认识到自己确实没有很多MARL的经验,最近就进行了代码实践,不然看论文想idea总是空中楼阁,而且就算有好的想法,没有对比的算法也不行,所以还是要有自己的算法库,这样不论做项目还是做实验都会方便。最近照着师兄的代码实现了一遍QMIX,值分解的套路算是明白了。代码经验真的得靠实践,实践才会知道paper之外的各种问题。而且算法效率很重要,可以帮忙缩短一半时间。但是不要陷入代码改进的泥潭,比如为了更好的可视化搞半天,或者是项目结原创 2020-08-13 22:21:44 · 1179 阅读 · 2 评论 -
[NIPS 2019] Multi-Agent Common Knowledge Reinforcement Learning笔记
文章目录前言IntroductionProblem settingcommon knowledge前言这篇文章在2020.1.11在arxiv上更新了,添加了附录,跟我的一些想法不谋而合,因此拿出来仔细研读一下。代码agent之间的common knowledge使得复杂的分布式协作成为可能。这里作者提出了multiagent common knowledge reinforcement learning (MACKRL),一个新奇的stochastic actor-critic算法,学习层次的策略原创 2020-07-02 22:43:19 · 1083 阅读 · 1 评论 -
[ICML2019]TibGM A Transferable and Information-Based Graphical Model Approach for RL笔记
文章目录前言方法符号与模型推理结论前言结合图模型GM将其作为RL框架的基础,有可能解决迁移,泛化和探索问题。文中提出一种使用高效推理过程来增强泛化和迁移能力。作者展示了GM中基于互信息(mutual information)的目标,与RL包含标准的最大化奖赏目标和泛化/迁移目标的合并目标的等价性。方法中,表示环境的隐藏空间被分解为模块:1)目的是最大化每个时间步的奖赏;2)全部模块对应关于环...原创 2020-04-25 19:45:59 · 413 阅读 · 0 评论 -
[AAAI2020] Deep Reinforcement Learning for General Game Playing 笔记
文章目录前言UCTAlphaZero算法协作博弈非对称博弈多方同时博弈Non-board games内存优化前言General Game Playing agents被要求仅仅在运行时看博弈规则的正式描述,比如Game Description Language,就能参与他之前从未见过的博弈,并且没有任何来自人类的额外输入。之前成功的工作基于类属启发(generic heuristics)的搜索...原创 2020-04-18 19:28:41 · 704 阅读 · 0 评论 -
Hierarchical Macro Strategy Model for MOBA Game AI 笔记
文章目录前言模型attention layerphase layerImitated Cross-agents Communication前言作者认为游戏ai的下一个挑战在于实时策略游戏(RTS)。RTS比围棋困难的方面有:1)计算复杂度。动作空间与状态空间比较大。2)多智能体。他们的协作很关键。3)不完美信息。战争迷雾增加了游戏的不确定性。4)稀疏与延时奖赏。游戏长度太长了。OpenAI F...原创 2020-03-28 19:02:08 · 386 阅读 · 0 评论 -
Networked Multi-Agent Reinforcement Learning in Continuous Spaces 笔记
文章目录前言方法前言针对多智能体协作场景,通过一个可能随时间变化的通讯网络交换信息,提出完全分布式ac算法,只依赖于neighbor-to-neighbor的通信。连续状态与动作空间,使用线性函数近似时具有收敛性保证。解决巨大甚至连续的状态动作空间的常用算法是AC,技术核心是随机策略梯度SPG,但是梯度估计的方差很大,特别是连续动作空间。于是有了确定性策略梯度DPG以及对应的AC算法,专门针...原创 2020-03-14 18:11:42 · 576 阅读 · 0 评论 -
[AAAI2020] Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning 笔记
文章目录前言方法NCC-Q前言社会心理学和真实经验展示了,认知一致性在保持人类社会有序方面扮演了重要角色。如果人们对于他们的环境具有更一致的认知,他们更可能实现更好的合作。同时,只有一个邻居范围内的认知一致性才重要,因为人们只直接与邻居交互。这篇文章将neighborhood cognitive consistency(NCC)引入MARL,提出一个整体的设计。社会心理学中,认知一致性理论展...原创 2020-03-07 19:46:18 · 1004 阅读 · 0 评论 -
Partner Selection for the Emergence of Cooperation in Multi-Agent Systems Using RL 笔记
文章目录前言简介方法前言这篇文章介绍了促进协作的一种方式——partner selection,同样是最大化自私的目标函数,实验表明agent可以学习一个策略在促进协作的同时报复背叛者,最后形成亲社会。简介social dilemmas被描述为一个个体的短期奖赏与整体的长期利益之间的trade-off。理解协作出现的机制仍然是一个未解决的问题。建模对手和使用整体的联合动作分布可以解决age...原创 2020-02-22 18:11:03 · 1225 阅读 · 0 评论 -
Deep reinforcement learning with relational inductive biases 笔记
文章目录前言背景MethodRL方法输入模块关系模块输出模块实验BOX-WORLD前言这是一个使用结构化特征上关系推理的机制帮助model-free的深度强化学习的方法,提高了表现、学习有效性、泛化性、可解释性。这篇文章的主要贡献就是介绍一种技术,通过关系归纳偏置来表征和推理深度强化学习中agent的状态。背景深度强化学习在一些具有挑战性的问题上实现非凡的效果很大程度上是因为其在如何学习和...原创 2020-02-22 18:43:29 · 724 阅读 · 0 评论 -
Graph Convolutional Reinforcement Learning 笔记
文章目录前言背景前言这篇文章同样关注如何更好地得到信息,从而帮助协作。主要是将自己的和邻居的特征整合起来,变成一个更新后的特征——这是卷积的作用。第一层卷积整合了自己和邻居的信息,第二层就相当于整合了邻居和它邻居的信息,这样就扩大了感知域,使得协作不再局限于局部。背景...原创 2020-02-22 18:43:07 · 1948 阅读 · 1 评论 -
[AAAI2020] From Few to More: Large-scale Dynamic Multiagent Curriculum Learning 笔记
文章目录前言前言这篇文章介绍了三种迁移方法,来通过课程学习加速。然后提出了一个新的架构DyAN,使得模型与agent数目无关。一个有效的解决large-scale多智能体学习问题的方法是利用课程学习理论...原创 2019-11-03 16:11:55 · 1149 阅读 · 1 评论 -
Learning Transferable Cooperative Behavior in Multi-Agent Teams 笔记
文章目录前言背景前言最近实在是没怎么看论文,这篇论文的方法也算是比较新,方向我觉得是未来比较火的一个,趁现在看看能不能做点工作。毕竟图网络比较火,跟它结合也能做点东西。尽管mutil-agent interactions可以被很自然的建模为一个图,但环境通常都被当做一个黑盒。本文创建一个共享的agent-entity图,agent和环境实体构成顶点,边存在于互相通信的顶点之间。这个框架与系统...原创 2020-02-22 18:43:43 · 829 阅读 · 1 评论 -
Learning in Multi-agent Systems with Sparse Interactions by Knowledge Transfer and Game Abstraction
文章目录前言评价局部环境动态的改变前言 作者的工作是组里做game abstraction的基础,基本每个新生都会看一看这位博士的毕业论文。这篇论文是其发表的关于这方面工作的论文,我主要关注其中game abstraction的算法。 执行均衡策略相比之前算法中Q-learning-like的协作准则是一种更好的协作方式,因为即使协同工作,在某些状态仍然可能有冲突。作者提出三种知识迁移方...原创 2019-09-20 14:31:46 · 387 阅读 · 0 评论 -
Autonomously Reusing Knowledge in Multiagent Reinforcement Learning 笔记
文章目录前言知识复用问题定义知识复用策略来自之前任务的知识从示范学习模仿学习前言这是一篇提问题的文章,可以找找研究方向。在许多情况下,知识复用是保持训练次数合理的一个核心技术,为了这样,agent必须持续自动地复用来自许多源头的知识,包括自己之前内部的知识和其他agents的。本文对多智能体强化学习的知识复用方法进行了文献综述,给AI社区定义了一个重要的挑战性问题,调查了现有的方法,讨论他们如...原创 2019-08-13 17:04:49 · 602 阅读 · 0 评论 -
Game Theory and Multi-agent Reinforcement Learning 笔记2
文章目录Sequential GamesMarkov Games马尔科夫博弈中的强化学习值迭代Sequential Games多智能体强化学习在有状态转移的环境中进行序列决策。马尔科夫博弈可以看做是MDP在多智能体条件下的扩展,和repeated games到多状态条件下的扩展。如果只有一个agent,马尔科夫博弈变成MDP,如果只有一个状态,马尔科夫博弈变成repeated normal g...原创 2019-08-04 19:56:22 · 1689 阅读 · 1 评论 -
Game Theory and Multi-agent Reinforcement Learning 笔记1
文章目录前言介绍Repeated Games博弈论Normal form games博弈的类型博弈的解决概念强化学习在repeated games学习目标博弈中的Q-learning梯度上升方法前言这是一篇综述性质的文章,里面有个别错字。强化学习最初是针对马尔科夫决策过程(MDP)开发出来的,能使单agent在随机平稳环境(stochastic stationary environment)中...原创 2019-08-02 17:39:08 · 1776 阅读 · 0 评论 -
Improving automatic source code summarization via deep reinforcement learning笔记
文章目录前言OverviewModel ArchitectureHYBRID REPRESENTATION OF CODEHybrid AttentionText GenerationCritic NetworkModel Training前言这篇论文利用了AST的信息,结合高级RL进行代码描述的生成。果然这个工作不是没人填啊,但事物总有两面性,虽然一方面没机会做首个工作了,但另一方面,可以利...原创 2019-01-06 22:46:33 · 997 阅读 · 2 评论 -
code2seq: Generating Sequences from Structured Representations of Code笔记
文章目录前言OverviewModel ArchitectureREPRESENTING CODE AS AST PATHSEncoderABLATION STUDY前言这篇文章源码还未公布,方法有点编译原理的味道,这种结合语法结构的思想很好,能用编译原理的知识我觉得确实会有帮助,就是具体方法或许可以优化。论文地址:https://arxiv.org/abs/1808.01400作者地址,...原创 2018-12-29 23:05:57 · 3044 阅读 · 2 评论 -
A Study of Reinforcement Learning for Neural Machine Translation笔记
文章目录前言OverviewBackground前言刚刚开始研究这些,发现有的论文给的代码我跑不了,光看论文确实感觉很飘,就是你知道他什么意思,但是没有动手实现的话也就是浮于表面。我现在确实有点迷茫,一个是代码跑不通,每个人环境还不全一样,有的用theano,有的tensorflow,代码我看起来有点费劲,但我觉得又不能在还没搞清楚思路前就花太多时间在编代码上,但纯粹读论文又不踏实,我也很容易...原创 2018-12-28 22:18:45 · 1375 阅读 · 3 评论