公众号:Halo 咯咯,欢迎关注~
简介
很难说自然语言处理(NLP)的旅程是什么时候开始的。根据维基百科的文章《自然语言处理的历史》[1],它可能始于 17 世纪,当时莱布尼茨和笛卡尔试图理解不同语言中单词之间的关系,也可能是由艾伦·图灵的工作发起的,包括他的问题“机器能思考吗? ”以及他著名的模仿游戏[2]。
众所周知,计算机科学家不断突破 NLP 的界限,旨在创造真正理解人类语言的机器,从 1967 年开发 Eliza 等基于规则的基本聊天机器人,一直到发明更复杂的深度学习方法。 3]。图 1 展示了大型语言模型 (LLM) 的粗略时间表。 1967 年,第一个聊天机器人 Eliza 诞生。它使用模式匹配和关键字识别来模拟人类语言理解[3]。 1997年,长短期记忆(LSTM)网络被发明[4]。 LSTM 是一种深度学习方法,它考虑了语言的顺序性质,并具有记住或忘记信息以提高语言理解的能力。如今,LSTM 仍然是一种有价值的工具,也是涉及顺序数据的任务的不错选择。发展仍在继续,最大的突破发生在 2017 年,谷歌突破性的 Transformer 架构迎来了自然语言处理和理解的新时代[5]。
如今,LLM的进步正以闪电般的速度发生。激烈的竞争推动创新,每天都有新的突破出现。图 2 说明了LLM在现代世界的持续发展。如图所示,这个时代始于 BERT、GPT-2、GPT-3 和 PaLM 等模型。新版本的 LLM 模型具有更高的性能和更多的参数。我们现在可以自信地断言,这些努力已经取得了重大成就,谷歌的 Gemini 或 GPT-4 等模型所展示的功能就证明了这一点。
从Transformer到LLM
LLM代表了自然语言理解领域的重大进步,它建立在传统任务的基础上,而传统任务基本上是序列建模问题。在书面和口语中,单词按照特定的顺序排列来传达含义。这种顺序结构对于理解单词与句子或文本的整体上下文之间的关系至关重要。例如,在英语中,简单句子中的词序通常是主语-动词-宾语,例如:
“The cat (subject) chases (verb) the mouse (object).”
改变词序可以改变句子的意思。在更复杂的句子中,语言的顺序性质对于理解句子不同部分之间的关系变得更加重要。
在序列建模中,目标是以连贯且有意义的方式理解和生成标记序列(单词、字符等)。
以下是可被视为序列建模任务的 NLP 问题的一些示例:
- 机器翻译:在机器翻译中,目标是将单词序列从一种语言转换为另一种语言。