
ICML2024
文章平均质量分 78
Power2024666
不断的阅读,不断的记录,不断的提升!
展开
-
NLP论文速读(ICML 2024)|通过人的反馈实现质量多样性(Quality Diversity through Human Feedback:Towards Open-Ended ……)
使用对比学习策略,通过优化潜空间中的距离关系,使相似的嵌入更接近,不相似的嵌入更远离。具体来说,给定三个潜空间嵌入,如果人类判断第一个嵌入与第二个嵌入比与第三个嵌入更相似,那么就优化潜空间中的距离,使第一个和第二个嵌入的距离变小,而与第三个嵌入的距离变大。潜空间中的每个维度代表一个多样性指标,这些维度的大小和方向捕捉了不同的多样性概念,提供了一个紧凑且信息丰富的输入表示。本文旨在结合这两种方法的优势,提出一种新的方法,通过人类反馈来推断多样性指标,从而增强QD算法在复杂和开放领域中的适用性和有效性。原创 2025-01-15 11:45:25 · 1529 阅读 · 0 评论 -
NLP论文速读(ICML2024)|迭代数据平滑(Iterative Data Smoothing: Mitigating Reward Overfitting and ……)
对于频繁出现的样本对,IDS能够准确估计奖励,而对于不常见的样本对,估计的奖励保持在初始化值附近,从而隐式地惩罚不确定性较高的样本。Figure 2展示了在多臂老虎机(multi-armed bandit)设置中的实验结果,这些实验旨在比较三种不同的方法:传统的最大似然估计(MLE)、悲观最大似然估计(Pessimistic MLE)和本文提出的迭代数据平滑方法。通过Figure 2中的实验结果,论文得出结论,IDS方法在多臂老虎机设置中有效地解决了奖励过拟合和过度优化的问题。原创 2025-01-12 14:10:20 · 442 阅读 · 0 评论