本文是LLM系列文章,针对《SambaLingo: Teaching Large Language Models New Languages》的翻译。
摘要
尽管LLM广泛可用,但在不同语言的能力和可用性方面仍存在巨大差距。解决这些问题的一种方法是采用现有的预训练LLM,并继续对其进行新语言训练。虽然之前的工作已经尝试过语言适应,但围绕最佳实践和方法论的许多问题尚未得到解决。在本文中,我们对使LLM适应新语言的最佳实践进行了全面的调查。我们的研究探讨了这一过程中的关键组成部分,包括词汇扩展和新token的初始化、直接偏好优化以及低资源语言中人类对齐的数据稀缺问题。我们将这些实验扩展到9种语言和2个参数量表(7B和70B)。我们将我们的模型与Llama 2、Aya-101、XGLM、BLOOM和现有的语言专家进行了比较,其表现优于所有先前发布的基线。此外,所有评估代码和检查点都是公开的,以方便未来的研究。
1 引言
2 相关工作
3 自适应方法
4 评估
5 消融实验
6 局限性
7 结论
我们提出了一种使预训练的LLM适应新语言的方法。该方法包括持续的预训练和与目标语言中人类偏好的一致性。我们展示了实验结果,以证明我们的设计选择是合理的,并将我们的方法扩展到类型多样的语言和2个
订阅专栏 解锁全文

338

被折叠的 条评论
为什么被折叠?



