NLP 基础概念
自然语言处理(Natural Language Processing)是人工智能领域的重要分支,旨在使计算机能够理解和处理人类语言,实现人机自然交流。随着信息技术的发展,NLP技术不断进步,从早期的基于规则的方法到深度学习技术的广泛应用,文本表示等核心技术的研究推动了NLP系统性能的提升。
1.1 什么是 NLP
NLP是一种让计算机理解、解释和生成人类语言的技术,结合了计算机科学、人工智能、语言学和心理学等多学科知识,其核心任务是模拟人类对语言的认知和使用过程。NLP技术可执行多种复杂语言处理任务,如中文分词、词性标注、文本分类、机器翻译等。NLP目前仍面临处理歧义性、理解抽象概念等挑战。
1.2 NLP 发展历程
NLP的发展经历了多个阶段:
-
早期探索(1940s - 1960s):
- 二战后,机器翻译的重要性被认识到。1950年,艾伦·图灵提出图灵测试,诺姆·乔姆斯基的生成语法理论也对机器翻译产生重要影响,但当时的机器翻译系统效果不佳。
-
符号主义与统计方法(1970s - 1990s):
- 1970年代后,NLP研究者探索逻辑基础范式和自然语言理解,分为符号主义和统计方法两大阵营。1980年代,统计模型开始取代复杂的手写规则。
-
机器学习与深度学习(2000年代至今):
- 2000年代后,深度学习技术推动NLP取得显著进步。RNN、LSTM、注意力机制等技术被广泛应用,2013年Word2Vec模型开创词向量表示新时代,2018年BERT模型引领预训练语言模型新浪潮,近年来基于Transformer的模型如GPT等能生成高质量文本。
1.3 NLP 任务

1.4 文本表示的发展历程
文本表示是将文本数据转化为计算机可以处理的数字形式,这一过程对于自然语言处理(NLP)系统的性能有着至关重要的影响。随着技术的不断进步,文本表示方法也在不断发展和演进,从最初的简单方法到如今的复杂深度学习模型,每一次变革都为NLP领域带来了新的突破。
1.4.1 词向量(Word Embedding)
词向量将文本表示为高维空间中的向量。在这个模型中,每个维度通常对应一个特定的词汇表中的单词,而向量中的值则表示该单词在文本中的出现频率或其他权重(如TF-IDF)。
- 优点:
- 简单直观,易于理解和实现。
- 可以通过矩阵运算快速计算文本之间的相似度。
- 缺点:
- 数据稀疏性:由于词汇表通常很大,而文本中只包含其中的一部分单词,因此大部分维度的值为零,导致向量非常稀疏。
- 维数灾难:高维空间中的向量计算复杂度高,且容易出现过拟合问题。
- 无法捕捉词序和上下文信息:每个单词独立表示,忽略了单词之间的顺序和上下文关系。
1.4.2 语言模型(Language Models)
N-gram模型是一种基于统计的语言模型,其核心思想是利用马尔可夫假设来预测一个词的出现概率。具体来说,N-gram模型假设一个词的出现概率仅依赖于它前面的N-1个词。
- 优点:
- 实现简单,计算效率高。
- 在许多NLP任务中(如拼写纠错、机器翻译等)表现出色。
- 缺点:
- 数据稀疏性:当N较大时,N-gram序列的出现频率会急剧下降,导致模型无法有效学习。
- 无法捕捉长距离依赖关系:由于只考虑了局部上下文,无法理解句子中的复杂结构和语义信息。
1.4.3 Word2Vec
Word2Vec是一种基于神经网络的词嵌入技术,由Tomas Mikolov等人在2013年提出。它通过学习词与词之间的上下文关系来生成词的密集向量表示。Word2Vec有两种主要架构:连续词袋模型(CBOW)和Skip-Gram模型。
-
CBOW:根据上下文单词预测目标单词。例如,给定上下文“我 爱 自然 语言”,预测目标单词“处理”。
-
Skip-Gram:与CBOW相反,根据目标单词预测上下文单词。例如,给定目标单词“处理”,预测上下文“我 爱 自然 语言”。
-
优点:
- 生成的词向量是低维密集向量,减少了计算复杂度和存储需求。
- 能够捕捉词与词之间的语义关系,如“国王”和“王后”在向量空间中距离较近。
- 泛化能力强,可以很好地处理未见过的词。
-
缺点:
- 无法捕捉长距离依赖关系,因为它是基于局部上下文的。
- 对于罕见词和未登录词的处理效果不佳。
1.4.4 ELMo(Embeddings from Language Models)
ELMo是由Matthew E. Peters等人在2018年提出的一种预训练语言模型。它首次将预训练思想引入到词向量的生成中,使用双向LSTM结构来捕捉词汇的上下文信息。ELMo的训练分为两个阶段:
-
预训练阶段:在大型语料库上训练一个双向LSTM语言模型,学习通用的语言知识。
-
微调阶段:在特定任务上对预训练模型进行微调,使其更适合该任务。
-
优点:
- 能够捕捉词汇的多义性和上下文信息,生成的词向量更加丰富和准确。
- 适用于多种NLP任务,如文本分类、实体识别等。
-
缺点:
- 模型复杂度高,训练时间长,计算资源消耗大。
- 依赖于大量的标注数据进行微调。
参考资料
- DataWhale Happy-LLM学习文档
1040

被折叠的 条评论
为什么被折叠?



