Happy-LLM NLP概念学习笔记

最新推荐文章于 2025-12-05 22:05:34 发布

原创最新推荐文章于 2025-12-05 22:05:34 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

2 篇文章

订阅专栏

自然语言处理（Natural Language Processing）是人工智能领域的重要分支，旨在使计算机能够理解和处理人类语言，实现人机自然交流。随着信息技术的发展，NLP技术不断进步，从早期的基于规则的方法到深度学习技术的广泛应用，文本表示等核心技术的研究推动了NLP系统性能的提升。

NLP是一种让计算机理解、解释和生成人类语言的技术，结合了计算机科学、人工智能、语言学和心理学等多学科知识，其核心任务是模拟人类对语言的认知和使用过程。NLP技术可执行多种复杂语言处理任务，如中文分词、词性标注、文本分类、机器翻译等。NLP目前仍面临处理歧义性、理解抽象概念等挑战。

NLP的发展经历了多个阶段：

早期探索(1940s - 1960s):
- 二战后，机器翻译的重要性被认识到。1950年，艾伦·图灵提出图灵测试，诺姆·乔姆斯基的生成语法理论也对机器翻译产生重要影响，但当时的机器翻译系统效果不佳。
符号主义与统计方法(1970s - 1990s):
- 1970年代后，NLP研究者探索逻辑基础范式和自然语言理解，分为符号主义和统计方法两大阵营。1980年代，统计模型开始取代复杂的手写规则。
机器学习与深度学习(2000年代至今):
- 2000年代后，深度学习技术推动NLP取得显著进步。RNN、LSTM、注意力机制等技术被广泛应用，2013年Word2Vec模型开创词向量表示新时代，2018年BERT模型引领预训练语言模型新浪潮，近年来基于Transformer的模型如GPT等能生成高质量文本。

在这里插入图片描述

文本表示是将文本数据转化为计算机可以处理的数字形式，这一过程对于自然语言处理（NLP）系统的性能有着至关重要的影响。随着技术的不断进步，文本表示方法也在不断发展和演进，从最初的简单方法到如今的复杂深度学习模型，每一次变革都为NLP领域带来了新的突破。

词向量将文本表示为高维空间中的向量。在这个模型中，每个维度通常对应一个特定的词汇表中的单词，而向量中的值则表示该单词在文本中的出现频率或其他权重（如TF-IDF）。

优点：
- 简单直观，易于理解和实现。
- 可以通过矩阵运算快速计算文本之间的相似度。
缺点：
- 数据稀疏性：由于词汇表通常很大，而文本中只包含其中的一部分单词，因此大部分维度的值为零，导致向量非常稀疏。
- 维数灾难：高维空间中的向量计算复杂度高，且容易出现过拟合问题。
- 无法捕捉词序和上下文信息：每个单词独立表示，忽略了单词之间的顺序和上下文关系。

N-gram模型是一种基于统计的语言模型，其核心思想是利用马尔可夫假设来预测一个词的出现概率。具体来说，N-gram模型假设一个词的出现概率仅依赖于它前面的N-1个词。

优点：
- 实现简单，计算效率高。
- 在许多NLP任务中（如拼写纠错、机器翻译等）表现出色。
缺点：
- 数据稀疏性：当N较大时，N-gram序列的出现频率会急剧下降，导致模型无法有效学习。
- 无法捕捉长距离依赖关系：由于只考虑了局部上下文，无法理解句子中的复杂结构和语义信息。

Word2Vec是一种基于神经网络的词嵌入技术，由Tomas Mikolov等人在2013年提出。它通过学习词与词之间的上下文关系来生成词的密集向量表示。Word2Vec有两种主要架构：连续词袋模型（CBOW）和Skip-Gram模型。

CBOW：根据上下文单词预测目标单词。例如，给定上下文“我爱自然语言”，预测目标单词“处理”。
Skip-Gram：与CBOW相反，根据目标单词预测上下文单词。例如，给定目标单词“处理”，预测上下文“我爱自然语言”。
优点：
- 生成的词向量是低维密集向量，减少了计算复杂度和存储需求。
- 能够捕捉词与词之间的语义关系，如“国王”和“王后”在向量空间中距离较近。
- 泛化能力强，可以很好地处理未见过的词。
缺点：
- 无法捕捉长距离依赖关系，因为它是基于局部上下文的。
- 对于罕见词和未登录词的处理效果不佳。