本文是LLM系列文章,针对《Exploring Multilingual Concepts of Human Values in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages?》的翻译。
在大型语言模型中探索人类价值观的多语言概念:价值取向在语言之间是一致的、可传递的和可控制的吗?
摘要
先前的研究表明,抽象概念在LLM的表示空间中被线性地表示为方向,主要以英语为中心。在本文中,我们将这项研究扩展到多语言背景下,特别关注与人类价值相关的概念(即价值概念),因为它们对人工智能安全具有重要意义。通过我们对7种类型的人类价值观、16种语言和3个具有不同多语性的LLM系列的全面探索,我们首先以多语形式实证证实了LLM中存在价值概念。对这些概念的跨语言特征的进一步分析揭示了语言资源差异产生的三个特征:跨语言的不一致性、扭曲的语言关系以及高资源和低资源语言之间的单向跨语言迁移,所有这些都是从价值观的角度来看的。此外,我们还验证了跨语言控制LLM价值调整能力的可行性,将主导语言作为源语言。最终,认识到LLM的多语性对我们的结果的重大影响,我们巩固了我们的研究结果,并就LLM预训练的多语数据的组成提供了谨慎的建议。

本文探讨了大型语言模型(LLM)在多语言环境下如何表示人类价值观,涉及7种价值观、16种语言和3个LLM系列。研究揭示了语言资源差异导致的跨语言不一致性、语言关系扭曲和单向迁移现象,并证明了价值对齐的可控性。文章提出了关于LLM多语种预训练数据的谨慎建议。
订阅专栏 解锁全文
613

被折叠的 条评论
为什么被折叠?



