本文是LLM系列文章,针对《Textbooks Are All You Need II: phi-1.5 technical report》的翻译。
摘要
我们继续调查TinyStories发起的基于Transformer的较小语言模型的威力,TinyStoris是一个1000万参数的模型,可以生成连贯的英语,phi-1是一个13亿参数的模型。后一项工作建议使用现有的大型语言模型(LLM)来生成“教科书质量”的数据,作为与传统网络数据相比增强学习过程的一种方式。我们遵循“教科书就是你所需要的一切”的方法,这次重点关注自然语言中的常识推理,并创建了一个名为phi-1.5的13亿参数的新模型,在自然语言任务上的性能可与5倍大的模型相媲美,在更复杂的推理任务(如小学数学和基本编码)上超过了大多数非前沿LLM。更普遍地说,phi-1.5表现出了大得多的LLM的许多特征,既有好的——比如“一步一步思考”或进行一些基本的上下文学习的能力——也有坏的,包括幻觉和潜在的有毒和有偏见的世代——尽管令人鼓舞的是,由于缺乏网络数据,我们看到了这方面的改进。我们开源了phi-1.5,以促进对这些紧迫主题的进一步研究。
1 引言
2 技术规范
3 基准结果
4 解决毒性和偏见
5 我们的模型的使用
6 讨论
我们引入了phi-1.5,这是一个13亿参数的LLM,主要在专门策划的“textbookquality”合成数据集上进行训练。我们的研究结果表明,该模型的性能与具有数量级以上参数的模型相似,甚至在推理任务(常识或逻辑推理)方面

本文介绍了phi-1.5,一个13亿参数的语言模型,通过在高质量教科书数据上训练,展现出与更大模型相当甚至在推理任务上超越的性能。该模型在自然语言任务和复杂推理任务上表现出色,同时开源以促进对LLM的研究,关注数据质量和偏见缓解问题。尽管存在幻觉和毒性问题,phi-1.5的成果暗示了更高效人工智能的可能性。
订阅专栏 解锁全文
377

被折叠的 条评论
为什么被折叠?



