本文是LLM系列文章,针对《Large Language Models: A Survey》的翻译。
摘要
自2022年11月ChatGPT发布以来,大型语言模型(LLM)因其在广泛的自然语言任务中的强大性能而备受关注。LLM的通用语言理解和生成能力是通过在大量文本数据上训练数十亿模型的参数来获得的,正如缩放定律所预测的那样。LLM的研究领域虽然很新,但正在以许多不同的方式迅速发展。在本文中,我们回顾了一些最著名的LLM,包括三个流行的LLM家族(GPT、LLaMA、PaLM),并讨论了它们的特点、贡献和局限性。我们还概述了为构建和增强LLM而开发的技术。然后,我们调查了为LLM训练、微调和评估准备的流行数据集,回顾了广泛使用的LLM评估指标,并在一组具有代表性的基准上比较了几种流行LLM的性能。最后,我们通过讨论开放的挑战和未来的研究方向来总结本文。
1 引言
2 大语言模型
3 LLMs是如何构建的
4 LLMs是如何使用和增强的
5 LLMs的流行数据集
6 LLMS在基准测试中的突出表现
7 挑战和未来方向
8 结论
本文对近几年来发展起来的LLM进行了综述。我们首先概述了早期预训练

本文详述了大型语言模型(LLM)的发展,包括GPT、LLaMA、PaLM等家族,探讨其构建、增强技术及在各种基准测试中的表现,同时也指出存在的挑战和未来研究趋势。
订阅专栏 解锁全文
647

被折叠的 条评论
为什么被折叠?



