人工智能咨询培训老师叶梓 转载标明出处
在当今数字化时代,语言不仅是沟通的桥梁,也是信息和知识传递的核心。尽管大模型(LLMs)在处理英语等主流语言方面取得了显著进展,但它们在理解和生成其他语言内容方面的能力却参差不齐。这种不平衡限制了技术在全球范围内的应用潜力,SambaNova Systems 的研究团队在论文 "SambaLingo: Teaching Large Language Models New Languages" 中,直面这一挑战,提出了一种创新的方法来教授LLMs新的语言,这不仅是技术进步的体现,更是推动语言平等的重要一步。
语言是文化传承的载体,每种语言都有其独特的表达方式和世界观。技术发展中的“语言鸿沟”往往使得某些语言群体在信息时代处于不利地位。SambaLingo项目通过扩展LLMs的能力,使得这些模型能够更好地服务于非英语用户,从而缩小了这一鸿沟,为构建一个更加包容的数字世界奠定了基础。

方法
在SambaLingo项目中,适应新语言的核心在于一系列精心设计的步骤,这些步骤构成了适应方法论的基石。
选择合适的基础模型是语言适应过程的第一步。研究团队选择了Llama 2 7B作为起始点,因为它是当时可用的最佳开源模型。选择基础模型时,考虑了模型在原始语言(这里是英语)上的表现,以及其参数规模和训练数据的多样性。这一选择对于后续的适应过程至关重要,因为它决定了模型在新语言上的起点和潜在的性能。
扩展模型的词汇表是为了提高模型对新语言的理解和生成能力。由于Llama 2主要在英文文本上训练,其标记器对其他语言的效率较低。为了解决这个问题,研究者们通过添加目标语言的非重叠标记来