本文是LLM系列文章,针对《Typhoon: Thai Large Language Models》的翻译。
摘要
Typhoon是一系列专门为泰语开发的泰语大型语言模型。本技术报告介绍了泰国LLM开发中的挑战和见解,包括数据准备、预训练、指令调整和评估。由于低资源语言的挑战之一是预训练数据的数量,我们应用持续训练来从强大的LLM中转移现有的世界知识。为了从预训练训阶段评估每个模型中包含的泰国知识,我们开发了ThaiExam,这是一个基于泰国高中生和投资专业人士考试的基准。此外,我们对Typhoon进行了微调,以遵循泰语指令,并在泰语指令数据集以及翻译、摘要和问答任务上评估了指令调整模型。在一套泰语基准测试上的实验结果表明,Typhoon的性能优于所有开源泰语模型,其性能在泰语中与GPT-3.5不相上下,但只有70亿个参数,在泰语文本标记化方面的效率高出2.62倍。
1 引言
2 相关工作
3 预训练
4 指令调整
5 风险和局限性
6 结论和未来工作
我们在Typhoon(一个有70亿个参数的泰语大型语言模型)上的工作表明,我们可以仅使用我们目前拥有的泰语数据的子集,将现有的以英语为中心的LLM调整为泰语。Typhoon是泰国基准测试中最先进的开源模型,在泰语中的性能与GPT-3.5不相上下,同时在标记化方面的效率提高了2.62倍。未来的工作将扩展预训练,以利用大量可用的泰国数据,并使用更大的基础模型,如34B、70B或专家混合物来利用应急能力。此外,未来的工作将进
Typhoon是专为泰语设计的大型语言模型,通过持续训练转移世界知识应对低资源语言挑战。该模型在泰国高中生和投资专业人士考试基准ThaiExam上表现优秀,并在泰语指令、翻译、摘要和问答任务上表现出色,性能媲美GPT-3.5,但参数更少,文本标记化效率提升显著。
已下架不支持订阅
168

被折叠的 条评论
为什么被折叠?



