论文速读|MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models
论文信息:
简介:
本文的背景是大型语言模型(LLMs)的最新进展,这些模型专注于通过多目标偏好对齐来满足多样化的人类期望和价值观。然而,现有的对齐方法依赖于策略模型参数,这导致每次引入新的策略模型时都需要重复进行高成本的对齐算法。此外,这些方法无法扩展到未见过的目标,因为它们的对齐目标是静态的。
本文的动机是现有的多目标对齐算法在训练成本和泛化能力方面存在显著的局限性。随着策略模型的规模和迭代速度的增加,现有的方法变得不兼容。此外,现有的方法无法在未见目标上进行有效的对齐,导致其泛化能力较差。为了解决这些问题,本文提出了一种新的方法,旨在实现策