Exploring Multilingual Concepts of Human Values in Large Language Models

本文探讨了大型语言模型(LLM)在多语言环境下如何表示人类价值观,涉及7种价值观、16种语言和3个LLM系列。研究揭示了语言资源差异导致的跨语言不一致性、语言关系扭曲和单向迁移现象,并证明了价值对齐的可控性。文章提出了关于LLM多语种预训练数据的谨慎建议。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Exploring Multilingual Concepts of Human Values in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages?》的翻译。

在大型语言模型中探索人类价值观的多语言概念:价值取向在语言之间是一致的、可传递的和可控制的吗?

摘要

先前的研究表明,抽象概念在LLM的表示空间中被线性地表示为方向,主要以英语为中心。在本文中,我们将这项研究扩展到多语言背景下,特别关注与人类价值相关的概念(即价值概念),因为它们对人工智能安全具有重要意义。通过我们对7种类型的人类价值观、16种语言和3个具有不同多语性的LLM系列的全面探索,我们首先以多语形式实证证实了LLM中存在价值概念。对这些概念的跨语言特征的进一步分析揭示了语言资源差异产生的三个特征:跨语言的不一致性、扭曲的语言关系以及高资源和低资源语言之间的单向跨语言迁移,所有这些都是从价值观的角度来看的。此外,我们还验证了跨语言控制LLM价值调整能力的可行性,将主导语言作为源语言。最终,认识到LLM的多语性对我们的结果的重大影响,我们巩固了我们的研究结果,并就LLM预训练的多语数据的组成提供了谨慎的建议。

1 引言

2 相关工作

3 探索

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值