公众号:Halo咯咯,欢迎关注~
本系列主要介绍了为ChatGPT以及许多其他大型语言模型(LLM)提供支持的Transformer神经网络。我们将从基础的Transformer概念开始介绍,尽量避免使用数学和技术细节,使得更多人能够理解这一强大的技术。
Transformers -- 以通俗易懂的方式解释 - Part 1
在ChatGPT或其他类似的大型语言模型(LLM)中,当您提出问题后,模型会生成一系列单词作为回答,这个过程可能看起来就像您的朋友通过消息应用程序逐字回复您的消息一样。不过,这里的一个区别是,模型在生成每个单词时都进行了精心的计算和选择,而不是简单地按发送键。
第一阶段:理解您的输入
阶段 1.1:准备——代币化
在人工智能和机器学习领域,处理的是数字数据。所以,首先要把您的问题分解成单词,并把每个单词转换成数字。可以想象成一个庞大的词典,里面每个单词都对应一个数字编号。比如,您问:“如何撰写博客文章?” 这个问题会被分解、转换成一系列数字,以便模型能够理解和处理。
您可能会好奇,“之前提到了神经网络,这是怎么回事?” 原因在于人工智能是一个涵盖多个学科和子领域的广泛领域,其中包括机器学习。而机器学习下又有许多子学科,深度学习便是其中之一。正是在深度学习这一子领域中,Transformer神经网络发挥着重要作用。