什么是大型 AI 语言模型,它们是如何工作的?大语言模型技术(LLM)。了解当今领先的大型 AI 模型背后的基本技术概念。

1.1 什么是大型语言模型?

大型语言模型 (LLMs),例如 OpenAI 的 ChatGPT 或 Google 的 BARD,是在大量数据上训练的大型神经网络,可以以前所未有的质量执行各种自然语言生成任务。它们是如何工作的,是什么让它们如此强大?工作LLM簿的这一章旨在提供对关键基础组件和技术(如语言建模和转换器)的理解。同时,我们将强调当代LLMs的关键特征,例如它们对各种任务的“基础”性质。如果这些术语中的任何一个看起来不熟悉,请不要担心——我们将在本章中一一介绍它们。

Language Modelling 语言建模

“You shall know a word by the company it keeps”, Firth, J. R. 1957

语言学家约翰·鲁珀特·费尔斯(John Rupert Firth)关于单词含义的这句话已被证明是当今成功背后的最基本原则LLMs。它指出,一个词的含义可以从它出现的整体上下文中推断出来。用于执行此操作的统计方法称为语言建模。在实践中,这意味着处理大量文本以确定每个单词在给定上下文中出现的可能性,即单词的分布信息。如果这些学习到的概率足够准确,就有可能生成在今天的LLMs

以以下示例为例:

Yesterday was a beautiful day since the sky was <>.”

根据我们对世界的感知,人类可能完成这句话是“蓝色”而不是“多云”,这使得前一个词更有可能。要获得这些信息,所需要的只是一个文本,该文本包含尽可能多的单词含义的各个方面,反映它发生的所有上下文。互联网的出现是释放这种方法真正力量的关键,它使大量的文本数据随时可用,从而不断提高语言模型(LM)的质量。

Artificial Neural Networks 人工神经网络

受生物对应物的启发,人工神经网络(或在人工智能背景下简称为“神经网络”)由称为神经元的小型计算单元组成。这些神经元的主要功能是处理和加权它们的输入,然后在通过某个阈值时输出新信号。这些单元可以在相互连接的层中组合在一起以形成一个网络,其复杂性随着层数的增加而增加。这些网络已被证明能够执行传统基于规则的程序无法解决的任务,并且在存储有关它们以权重(也称为参数)训练的数据的分布信息方面非常有效和高效。

Deep Learning  深度学习

深度学习是随着时间的推移逐渐调整人工神经网络层堆栈中每个神经元的权重的过程,以便整个网络能够在给定的任务上得到改进。换句话说,这样的网络通过反复将其暴露于许多输入和所需输出的例子来“训练”,并允许通过每次调整权重来“学习”,以便网络产生的结果变得更有可能并更接近所需的输出。

Neural Language Modelling
神经语言建模

神经语言建模是指基于神经网络的语言建模技术。请记住,语言建模的目标是找出每个单词在给定上下文中出现的可能性。如何实际有效地确定这种分布信息,特别是随着上下文数量的增加?通过简单地计算一个单词在所有可能情况下的出现次数来估计这些信息是不切实际的,因为即使是一个单词也可能在指数级的大量不同上下文中出现。然而,从大量文本中学习是可取的,因为它提供了比少量文本更丰富的信息。考虑到这一点,研究人员提出了利用神经网络和深度学习的力量的想法。由于分布信息的高效存储正是神经网络所擅长的,因此它们自然而然地适合于语言建模的任务。这就是为什么神经语言建模在当今的自然语言处理中变得无处不在的原因。

1.2 为什么要开发大型语言模型?

最重要的是,LLMs用途非常广泛,可用于各种任务。当前的模型,如为 ChatGPT 提供支持的 GPT-3.5,可以回答问题、写诗或散文、在语言之间翻译,甚至生成代码,所有这些都只接受原始文本的训练。虽然其中一些功能仍然令人惊讶,但很明显,语言建模比几年前看起来要有用得多。它已被证明适合学习一系列语言规律,例如句子结构、词形式的相互依存性以及它们在句子中的作用。

LLMs还具有效率,因为它们在单个模型中为上述任务提供了端到端的解决方案。以前,需要许多不同的方法,每种方法负责特定任务的语言生成的特定方面。此外,学习所有这些信息所需的数据不需要繁琐的手动处理,而

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值