1 背景
大语言模型 LLM 的出现是硬件、数据、算法、应用需求和研究合作等多方面因素共同作用的结果。计算芯片性能提升、云计算发展提供了强大计算能力,互联网普及和数据存储技术进步积累海量数据,Transformer 架构及预训练 - 微调范式带来算法突破,自然语言处理任务拓展和各行业智能化转型催生旺盛应用需求,学术科研与产业界的活跃合作则营造了良好发展环境,共同推动 LLM 诞生并不断发展。
春节期间,除了哪吒爆火,另一个比较火的产品就是DeepSeek。最开始吸引人们的大语言模型是ChatGPT,但ChatGPT的高性能版本是收费的,而低版本的ChatGPT性能一般,但DeepSeek的出现打破了这一僵局,因为DeepSeek完全免费且开源。
网上讲解DeepSeek或者其它语言大模型有些晦涩难懂。本篇博客的主要内容来自ChatGPT的创始人卡帕西讲解LLM的视频录播(讲的非常好),笔者因为项目的原因前前后后也接触了不少模型相关的知识,但第一次真正从原理上搞懂大语言模型就是通过卡帕西的视频,感兴趣的读者可以去翻翻看(全英文),笔者对该视频内容进行了梳理。
笔者会在下一篇关于大模型的博客中,将会举例说明Transformer大模型在自动驾驶端到端方面的应用,敬请期待。