本文是LLM系列文章,针对《Exploring Multilingual Concepts of Human Values in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages?》的翻译。
在大型语言模型中探索人类价值观的多语言概念:价值取向在语言之间是一致的、可传递的和可控制的吗?
摘要
先前的研究表明,抽象概念在LLM的表示空间中被线性地表示为方向,主要以英语为中心。在本文中,我们将这项研究扩展到多语言背景下,特别关注与人类价值相关的概念(即价值概念),因为它们对人工智能安全具有重要意义。通过我们对7种类型的人类价值观、16种语言和3个具有不同多语性的LLM系列的全面探索,我们首先以多语形式实证证实了LLM中存在价值概念。对这些概念的跨语言特征的进一步分析揭示了语言资源差异产生的三个特征:跨语言的不一致性、扭曲的语言关系以及高资源和低资源语言之间的单向跨语言迁移,所有这些都是从价值观的角度来看的。此外,我们还验证了跨语言控制LLM价值调整能力的可行性,将主导语言作为源语言。最终,认识到LLM的多语性对我们的结果的重大影响,我们巩固了我们的研究结果,并就LLM预训练的多语数据的组成提供了谨慎的建议。