【最新重磅整理】82篇AAAI2021强化学习领域论文接收列表

本文汇总了最新的深度强化学习研究成果,包括多个领域的创新算法和技术,如鲁棒强化学习、多智能体系统、自我监督学习等,展示了该领域的前沿动态。

深度强化学习实验室

官网:http://www.neurondance.com/

论坛http://deeprl.neurondance.com/

作者:深度强化学习实验室&AMiner

编辑:DeepRL

416:  Robust  Reinforcement  Learning:  A  Case  Study  in  Linear  Quadratic  Regulation  

Bo  Pang,  Zhong-­‐Ping  Jiang

676:  Scalable  First-­‐Order  Methods  for  Robust  MDPs  

Julien  Grand  Clement,  Christian  Kroer

710:  Maintenance  of  Social  Commitments  in  Multiagent  Systems  

Pankaj  Telang,  Munindar  Singh,  Neil  Yorke-­‐Smith

1137:  Self-­‐Supervised  Attention-­‐Aware  Reinforcement  Learning  

Haiping  Wu,  Khimya  Khetarpal,  Doina  Precup

1169:  Hierarchical  Reinforcement  Learning  for  Integrated  Recommendation  

Ruobing  Xie,  Shaoliang  Zhang,  Rui  Wang,  Feng  Xia,  Leyu  Lin

2088:  Combining  Reinforcement  Learning  with  Lin-­‐Kernighan-­‐Helsgaun  Algorithm  for  the  Traveling  Salesman  Problem  

Jiongzhi  Zheng,  Kun  He,  Jianrong  Zhou,  Yan  Jin,  Chumin  Li

2136:  Learning  to  Reweight  Imaginary  Transitions  for  Model-­‐Based  Reinforcement  Learning  

Wenzhen  Huang,  Qiyue  Yin,  Junge  Zhang,  KAIQI  HUANG

2294:  Exploration-­‐Exploitation  in  Multi-­‐Agent  Learning:  Catastrophe  Theory  Meets  Game  Theory  

Stefanos  Leonardos,  Georgios  Piliouras

2431:  Advice-­‐Guided  Reinforcement  Learning  in  a  Non-­‐Markovian  Environment  

Daniel  Neider,  Jean-­‐Raphaël  Gaglione,  Ivan  Gavran,  Ufuk  Topcu,  Bo  Wu,  Zhe  Xu

2441:  Content  Masked  Loss:  Human-­‐Like  Brush  Stroke  Planning  in  a  Reinforcement  Learning  Painting  Agent  

Peter  Schaldenbrand,  Jean  Oh

2453:  Metrics  and  Continuity  in  Reinforcement  Learning  

Charline  Le  Lan,  Marc  G.  Bellemare,  Pablo  Samuel  Castro

2666:  Synthesis  of  Search  Heuristics  for  Temporal  Planning  via  Reinforcement  Learning  

Andrea  Micheli,  Alessandro  Valentini

2971:  Lipschitz  Lifelong  Reinforcement  Learning  

Erwan  Lecarpentier,  David  Abel,  Kavosh  Asadi,  Yuu  Jinnai,  Emmanuel  Rachelson,  Michael  L.  Littman

3011:  Exact  Reduction  of  Huge  Action  Spaces  in  General  Reinforcement  Learning  

Sultan  Javed  Majeed,  Marcus  Hutter

3094:  Visual  Tracking  via  Hierarchical  Deep  Reinforcement  Learning  

Dawei  Zhang,  Zhonglong  Zheng,  Riheng  Jia,  Minglu  Li

3193:  Adaptive  Prior-­‐Dependent  Correction  Enhanced  Reinforcement  Learning  for  Natural  Language  Generation  

Wei  Cheng,  Ziyan  Luo,  Qiyue  Yin

3279:  A  Hybrid  Stochastic  Gradient  Hamiltonian  Monte  Carlo  Method  

Chao  Zhang,  Zhijian  Li,  Zebang  Shen,  Jiahao  Xie,  Hui  Qian

3412:  Sequential  Generative  Exploration  Model  for  Partially  Observable  Reinforcement  Learning  

Haiyan  Yin,  Jianda  Chen,  Sinno  Pan,  Sebastian  Tschiatschek

3679:  Learning  Task-­‐Distribution  Reward  Shaping  with  Meta-­‐Learning  

Haosheng  Zou,  Tongzheng  Ren,  Dong  Yan,  Hang  Su,  Jun  Zhu

3727:  Visual  Comfort  Aware-­‐Reinforcement  Learning  for  Depth  Adjustment  of  Stereoscopic  3D  Images  

Hak  Gu  Kim,  Minho  Park,  Sangmin  Lee,  Seongyeop  Kim,  Yong  Man  Ro

3812:  Scheduling  of  Time-­‐Varying  Workloads  Using  Reinforcement  Learning  

Shanka  Subhra  Mondal,  Nikhil  Sheoran,  Subrata  Mitra

4386:  DEAR:  Deep  Reinforcement  Learning  for  Online  Advertising  Impression  in  Recommender  Systems  

Xiangyu  Zhao,  Changsheng  Gu,  Haoshenglun  Zhang,  Xiwang  Yang,  Xiaobing  Liu,  Jiliang  Tang  ,  Hui  Liu

4719:  Complexity  and  Algorithms  for  Exploiting  Quantal  Opponents  in  Large  Two-­‐Player  Games  

David  Milec,  Jakub  Cerny,  Viliam  Lisy,  Bo  An

4999:  Bayesian  Optimized  Monte  Carlo  Planning  

John  Mern,  Anil  Yildiz,  Zachary  Sunberg,  Tapan  Mukerji,  Mykel  Kochenderfer

5008:  Towards  Effective  Context  for  Meta-­‐Reinforcement  Learning:  An  Approach  Based  on  Contrastive  Learning  

Haotian  Fu,  Hongyao  Tang,  Jianye  Hao,  Chen  Chen,  Xidong  Feng,  Dong  Li,  Wulong  Liu

5012:  Improved  POMDP  Tree  Search  Planning  with  Prioritized  Action  Branching  

John  Mern,  Anil  Yildiz,  Lawrence  Bush,  Tapan  Mukerji,  Mykel  Kochenderfer

5046:  Anytime  Heuristic  and  Monte  Carlo  Methods  for  Large-­‐Scale  Simultaneous  Coalition  Structure  Generation  and  Assignment  

Fredrik  Präntare,  Fredrik  Heintz,  Herman  Appelgren

5101:  Reinforcement  Learning  with  Trajectory  Feedback  

Yonathan  Efroni,  Nadav  Merlis,  Shie  Mannor

5167:  Encoding  Human  Domain  Knowledge  to  Warm  Start  Reinforcement  Learning  

Andrew  Silva,  Matthew  Gombolay

5284:  GLIB:  Efficient  Exploration  for  Relational  Model-­‐Based  Reinforcement  Learning  via  Goal-­Literal  Babbling  

Rohan  Chitnis,  Tom  Silver,  Joshua  Tenenbaum,  Leslie  Kaelbling,  Tomas  Lozano-­‐Perez

5303:  Provably  Good  Solutions  to  the  Knapsack  Problem  via  Neural  Networks  of  Bounded  Size  

Christoph  Hertrich,  Martin  Skutella

5320:  WCSAC:  Worst-­‐Case  Soft  Actor  Critic  for  Safety-­‐Constrained  Reinforcement  Learning  

Qisong  Yang,  Thiago  D.  Simão,  Simon  H  Tindemans,  Matthijs  T.  J.  Spaan

5334:  Queue-­‐Learning:  A  Reinforcement  Learning  Approach  for  Providing  Quality  of  Service  

Majid  Raeis,  Ali  Tizghadam,  Alberto  Leon-­‐Garcia

5546:  Improving  Sample  Efficiency  in  Model-­‐Free  Reinforcement  Learning  from  Images  

Denis  Yarats,  Amy  Zhang,  Ilya  Kostrikov,  Brandon  Amos,  Joelle  Pineau,  Rob  Fergus

5657:  A  Sample-­‐Efficient  Algorithm  for  Episodic  Finite-­‐Horizon  MDP  with  Constraints  

Krishna  C  Kalagarla,  Rahul  Jain,  Pierluigi  Nuzzo

5712:  Resilient  Multi-­‐Agent  Reinforcement  Learning  with  Adversarial  Value  Decomposition  

Thomy  Phan,  Lenz  Belzner,  Thomas  Gabor,  Andreas  Sedlmeier,  Fabian  Ritz,  Claudia  Linnhoff-­Popien

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值