Alif: Advancing Urdu Large Language Models via Multilingual Synthetic Data Distillation

该文章提出了针对低资源语言乌尔都语的多语言大模型Alif-1.0-8B-Instruct,通过改进的自指令技术构建高质量数据集,在控制成本的同时实现了乌尔都语任务性能的突破,并公开了相关资源。

一、文章主要内容总结

  1. 研究背景:乌尔都语作为低资源语言,在大模型开发中面临高质量数据集稀缺、多语言一致性差、文化差异导致翻译质量低、训练成本高等问题,现有多语言模型难以满足其需求。
  2. 核心解决方案:基于预训练模型Llama-3.1-8B,开发多语言(乌尔都语-英语)模型Alif-1.0-8B-Instruct,核心是通过改进的自指令技术构建高质量合成数据集Urdu-Instruct。
  3. 数据集构建:Urdu-Instruct包含51,686个样本,覆盖生成、伦理、问答、推理等7类任务,通过独特提示词、全局任务池、人工精炼等步骤,确保文化相关性与伦理安全性。
  4. 模型训练:采用两阶段流程,先使用200K乌尔都语维基百科文章继续预训练,再用Urdu-Instruct等105,339个样本微调,引入英语数据集避免“灾难性遗忘”,训练成本低于100美元。
  5. 实验结果:在乌尔都语翻译基准(MGSM、Alpaca Eval等)上,Alif性能显著优于Llama-3.1-8B-Instruct、Mistral-7B等主流模型,同时保持英语任务竞争力;量化实验显示Q6_K和Q8_0格式在性能与效率间平衡最优。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值