AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
ICLR 2021 论文推荐
Contrastive Divergence Learning is a Time Reversal Adversarial Game(对比性差异学习是一种时间逆转的对抗性游戏)
论文链接:https://www.aminer.cn/pub/5fcf5b6c91e011f4c80bad3c/?conf=iclr2021
推荐理由: 对比发散(Contrastive divergence, CD)学习是一种经典的学习方法,用于对数据样本进行非归一化的统计模型拟合。尽管该方法被广泛使用,但对这种算法的收敛特性仍不甚了解,其中的困难主要是用于推到损失梯度的不合理近似值。在本文中,作者提出了一个不需要任何近似值的CD的替代推导,并揭示了该算法的实际优化目标。具体来说,该工作表明CD是一个对抗性学习程序,其中一个判别器试图对从模型生成的马尔可夫链是否被时间逆转进行分类。尽管比生成式对抗网络(Generative Adversarial Networks, GANs)早了十多年,但CD实际上与这些技术密切相关。作者的推导很好地解决了以前的问题,即认为CD的更新步骤不能被表达为任何固定的目标函数的梯度。此外,作者的推导揭示了一个简单的修正,能够作为Metropolis-Hastings拒绝的替代方法。





Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization(通过距离度量学习和行为规范化实现高效的完全离线元强化学习)
论文链接:https://www.aminer.cn/pub/600833d59e795ed227f531c7/?conf=iclr2021
推荐理由: 作者研究了离线元强化学习(offline meta-reinforcement learning, OMRL)问题,这种模式使强化学习(reinforcement learning, RL)算法能够在不与环境进行任何交互的情况下迅速适应未见的任务,使RL在许多现实世界的应用中真正实用。然而,上述问题仍未被完全理解,仍需要解决两个主要挑战:首先,离线RL经常受到分布外状态交互的引导错误的影响,这导致了价值函数的分歧;其次,元RL需要与控制策略共同学习高效和稳健的任务推理。在这项工作中,作者对学习到的策略实施行为正则化,并结合确定性的上下文编码器来实现高效的任务推断。该工作在有界的上下文嵌入空间上提出了一个新的负功率距离度量,其梯度传播与贝尔曼备份的梯度传播是分开的。同时,上述方法是第一个无模型和端到端的OMRL算法,计算效率很高,在多个元RL基准上的表现超过了先前的算法。





Private Post-GAN Boosting(私有化后的GAN提升)
论文链接:https://www.aminer.cn/pub/5f1abbce91e011c09af1b5fa/?conf=iclr2021
推荐理由: 事实证明,在不损害个人隐私的情况下,差分私有的GANs是一种具有前景的现实合成数据的方法。然而,由于在训练中引入了保护隐私的噪声,GANs的收敛变得更加难以预测,导致训练结束时输出生成器的效用不佳。作者提出了Private Post-GAN boosting(Private PGB),这是一种不同的隐私方法,结合了GAN训练期间获得的生成器序列产生的样本,以创建一个高质量的合成数据集。该方法利用私有乘法权重方法(Hardt和Rothblum,2010)和判别器拒绝采样技术(Azadi等人,2019)对生成的样本进行重新加权,以获得高质量的合成数据。作者在高斯混合数据集和两个美国人口普查数据集上评估了Private PGB,并证明Private PGB在一系列质量衡量标准上比标准的私有GAN方法有所改进。最后,作者提供了一个非私有的PGB变体,改善了标准GAN训练的数据质量。





AMiner,AI赋能的学术搜索平台:https://www.aminer.cn/
#AMiner# #论文#

AMiner平台是清华大学研发的学术搜索系统,提供科技情报服务。本文推荐了三篇ICLR2021的论文,涉及对比性差异学习的优化目标解析、离线元强化学习的效率提升以及私有化GAN的改进,展示了在机器学习和数据隐私领域的最新研究进展。
2万+

被折叠的 条评论
为什么被折叠?



