随着大型语言模型(LLMs)的迅猛发展,其在各个领域展现出强大的能力。然而,训练数据中西方中心主义的倾向,使得 LLMs 在文化价值观一致性方面面临严峻挑战,这一问题在跨文化场景中尤为突出,可能导致表述错误和公平性问题。传统的角色分配和少样本学习等方法,由于严重依赖预训练知识、缺乏可扩展性以及无法有效捕捉细微的文化价值观,在实现可靠的文化一致性方面困难重重。在此背景下,一种名为 ValuesRAG 的新颖且有效的框架应运而生,它旨在通过检索增强生成(RAG)(面向企业RAG(Retrieval Augmented Generation)系统的多维检索框架)与上下文学习相结合的方式,在文本生成过程中动态整合文化和人口统计知识,以解决 LLMs 中的文化一致性难题。

一、LLMs 文化偏差的现状与挑战
(一)文化偏差的表现
当前的 LLMs 主要基于西方数据源进行训练,这使其不可避免地反映出西方文化规范和社会偏见。例如在一些语言任务中,模型对不同文化背景的描述和评价可能带有偏向西方的倾向,在跨文化环境中部署时,常常会产生错误表述和刻板印象输出。即便部分国家开发了本地化的 LLMs,如中国的 ERNIE、韩国的 HyperCLOVA 以及多语言的 ChatGLM 等,这些模型同样受到各自训练数据集偏差的影响。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



