该文章提出了针对低资源语言乌尔都语的多语言大模型Alif-1.0-8B-Instruct,通过改进的自指令技术构建高质量数据集,在控制成本的同时实现了乌尔都语任务性能的突破,并公开了相关资源。
一、文章主要内容总结
- 研究背景:乌尔都语作为低资源语言,在大模型开发中面临高质量数据集稀缺、多语言一致性差、文化差异导致翻译质量低、训练成本高等问题,现有多语言模型难以满足其需求。
- 核心解决方案:基于预训练模型Llama-3.1-8B,开发多语言(乌尔都语-英语)模型Alif-1.0-8B-Instruct,核心是通过改进的自指令技术构建高质量合成数据集Urdu-Instruct。
- 数据集构建:Urdu-Instruct包含51,686个样本,覆盖生成、伦理、问答、推理等7类任务,通过独特提示词、全局任务池、人工精炼等步骤,确保文化相关性与伦理安全性。
- 模型训练:采用两阶段流程,先使用200K乌尔都语维基百科文章继续预训练,再用Urdu-Instruct等105,339个样本微调,引入英语数据集避免“灾难性遗忘”,训练成本低于100美元。
- 实验结果:在乌尔都语翻译基准(MGSM、Alpaca Eval等)上,Alif性能显著优于Llama-3.1-8B-Instruct、Mistral-7B等主流模型,同时保持英语任务竞争力;量化实验显示Q6_K和Q8_0格式在性能与效率间平衡最优。
订阅专栏 解锁全文
717

被折叠的 条评论
为什么被折叠?



