Exploring Multilingual Concepts of Human Values in Large Language Models

最新推荐文章于 2025-12-12 17:54:27 发布

UnknownBody

最新推荐文章于 2025-12-12 17:54:27 发布

阅读量126

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM Alignment 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/138647671

LLM Daily 同时被 2 个专栏收录

1732 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Alignment

49 篇文章

订阅专栏

本文探讨了大型语言模型（LLM）在多语言环境下如何表示人类价值观，涉及7种价值观、16种语言和3个LLM系列。研究揭示了语言资源差异导致的跨语言不一致性、语言关系扭曲和单向迁移现象，并证明了价值对齐的可控性。文章提出了关于LLM多语种预训练数据的谨慎建议。

本文是LLM系列文章，针对《Exploring Multilingual Concepts of Human Values in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages?》的翻译。

在大型语言模型中探索人类价值观的多语言概念：价值取向在语言之间是一致的、可传递的和可控制的吗？

摘要
1 引言
2 相关工作
3 探索多语言价值观
4 实验
5 Q4：LLM的值对齐在不同语言之间是可控的吗？
6 讨论和建议
7 结论
局限性

摘要

先前的研究表明，抽象概念在LLM的表示空间中被线性地表示为方向，主要以英语为中心。在本文中，我们将这项研究扩展到多语言背景下，特别关注与人类价值相关的概念（即价值概念），因为它们对人工智能安全具有重要意义。通过我们对7种类型的人类价值观、16种语言和3个具有不同多语性的LLM系列的全面探索，我们首先以多语形式实证证实了LLM中存在价值概念。对这些概念的跨语言特征的进一步分析揭示了语言资源差异产生的三个特征：跨语言的不一致性、扭曲的语言关系以及高资源和低资源语言之间的单向跨语言迁移，所有这些都是从价值观的角度来看的。此外，我们还验证了跨语言控制LLM价值调整能力的可行性，将主导语言作为源语言。最终，认识到LLM的多语性对我们的结果的重大影响，我们巩固了我们的研究结果，并就LLM预训练的多语数据的组成提供了谨慎的建议。