本文是LLM系列文章,针对《Textbooks Are All You Need》的翻译。
课本是你全部所需要的
摘要
我们介绍了phi-1,这是一种新的大型代码语言模型,其大小明显小于竞争模型:phi-1是一种基于Transformer的模型,具有1.3B参数,在8个A100上训练了4天,使用了来自网络的“教科书质量”数据(6Btoken)和GPT-3.5(1Btoken)的综合生成教科书和练习。尽管规模很小,但phi-1pass@1HumanEval和MBPP的准确率分别为50.6%和55.5%。与phi-1-base(我们在编码练习数据集上微调阶段之前的模型)和phi-1-small(一个较小的模型,使用与phi-1相同的管道训练350M个参数,在HumanEval上仍达到45%)相比,它还显示出令人惊讶的涌现特性。