OpenAI与ChatGPT:超越市场炒作的技术解析
1. 微调模型的优势
微调的好处在于,无需从头重新训练预构建模型,就能使其适应特定用例。它能利用较小的训练数据集,减少训练时间和计算资源,同时还能保留模型在大规模数据集上原始训练所学到的生成能力和准确性。OpenAI向公众提供了多种模型,从可在Playground直接试用的GPT、Codex,到更复杂的嵌入模型等。除了使用预构建状态的模型,还可以通过微调,提供一组示例让模型学习,从而对其进行定制。
2. 通往ChatGPT之路:模型背后的数学原理
自2015年成立以来,OpenAI就致力于生成式预训练变换器(GPT)类模型的研发,这类模型是ChatGPT背后的核心引擎。GPT模型基于谷歌研究人员在2017年论文《Attention Is All You Need》中引入的变换器架构。变换器架构的出现是为了克服传统循环神经网络(RNN)的局限性。
2.1 RNN的结构
假设要预测房价,如果只有今天的房价数据,可以使用前馈架构,通过隐藏层(带有激活函数)对输入进行非线性变换,得到明天房价的预测值。但对于这类数据,通常会有更长的序列,比如未来5年的房价时间序列。我们希望将这些额外信息融入模型,让RNN能够记住过去的输入,以便正确解读当前输入并预测未来输出。
例如,不仅有今天的房价,还有昨天(t - 1)和前天(t - 2)的房价。t - 2隐藏层的输出作为(加权)输入传递给t - 1的隐藏层,t - 1的隐藏层还接收t - 1的输入。t - 1隐藏层的输出,已经包含了t - 2和t - 1输入的记忆,再作为输入传递给t的隐藏层。最终,我们感兴趣的明天的房价(yt +
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



