Happy-LLM NLP概念学习笔记

NLP 基础概念

​ 自然语言处理(Natural Language Processing)是人工智能领域的重要分支,旨在使计算机能够理解和处理人类语言,实现人机自然交流。随着信息技术的发展,NLP技术不断进步,从早期的基于规则的方法到深度学习技术的广泛应用,文本表示等核心技术的研究推动了NLP系统性能的提升。

1.1 什么是 NLP

​ NLP是一种让计算机理解、解释和生成人类语言的技术,结合了计算机科学、人工智能、语言学和心理学等多学科知识,其核心任务是模拟人类对语言的认知和使用过程。NLP技术可执行多种复杂语言处理任务,如中文分词、词性标注、文本分类、机器翻译等。NLP目前仍面临处理歧义性、理解抽象概念等挑战。

1.2 NLP 发展历程

NLP的发展经历了多个阶段:

  • 早期探索(1940s - 1960s):

    • 二战后,机器翻译的重要性被认识到。1950年,艾伦·图灵提出图灵测试,诺姆·乔姆斯基的生成语法理论也对机器翻译产生重要影响,但当时的机器翻译系统效果不佳。
  • 符号主义与统计方法(1970s - 1990s):

    • 1970年代后,NLP研究者探索逻辑基础范式和自然语言理解,分为符号主义和统计方法两大阵营。1980年代,统计模型开始取代复杂的手写规则。
  • 机器学习与深度学习(2000年代至今):

    • 2000年代后,深度学习技术推动NLP取得显著进步。RNN、LSTM、注意力机制等技术被广泛应用,2013年Word2Vec模型开创词向量表示新时代,2018年BERT模型引领预训练语言模型新浪潮,近年来基于Transformer的模型如GPT等能生成高质量文本。

1.3 NLP 任务

在这里插入图片描述

1.4 文本表示的发展历程

​ 文本表示是将文本数据转化为计算机可以处理的数字形式,这一过程对于自然语言处理(NLP)系统的性能有着至关重要的影响。随着技术的不断进步,文本表示方法也在不断发展和演进,从最初的简单方法到如今的复杂深度学习模型,每一次变革都为NLP领域带来了新的突破。

1.4.1 词向量(Word Embedding)

词向量将文本表示为高维空间中的向量。在这个模型中,每个维度通常对应一个特定的词汇表中的单词,而向量中的值则表示该单词在文本中的出现频率或其他权重(如TF-IDF)。

  • 优点
    • 简单直观,易于理解和实现。
    • 可以通过矩阵运算快速计算文本之间的相似度。
  • 缺点
    • 数据稀疏性:由于词汇表通常很大,而文本中只包含其中的一部分单词,因此大部分维度的值为零,导致向量非常稀疏。
    • 维数灾难:高维空间中的向量计算复杂度高,且容易出现过拟合问题。
    • 无法捕捉词序和上下文信息:每个单词独立表示,忽略了单词之间的顺序和上下文关系。
1.4.2 语言模型(Language Models)

N-gram模型是一种基于统计的语言模型,其核心思想是利用马尔可夫假设来预测一个词的出现概率。具体来说,N-gram模型假设一个词的出现概率仅依赖于它前面的N-1个词。

  • 优点
    • 实现简单,计算效率高。
    • 在许多NLP任务中(如拼写纠错、机器翻译等)表现出色。
  • 缺点
    • 数据稀疏性:当N较大时,N-gram序列的出现频率会急剧下降,导致模型无法有效学习。
    • 无法捕捉长距离依赖关系:由于只考虑了局部上下文,无法理解句子中的复杂结构和语义信息。
1.4.3 Word2Vec

Word2Vec是一种基于神经网络的词嵌入技术,由Tomas Mikolov等人在2013年提出。它通过学习词与词之间的上下文关系来生成词的密集向量表示。Word2Vec有两种主要架构:连续词袋模型(CBOW)和Skip-Gram模型。

  • CBOW:根据上下文单词预测目标单词。例如,给定上下文“我 爱 自然 语言”,预测目标单词“处理”。

  • Skip-Gram:与CBOW相反,根据目标单词预测上下文单词。例如,给定目标单词“处理”,预测上下文“我 爱 自然 语言”。

  • 优点

    • 生成的词向量是低维密集向量,减少了计算复杂度和存储需求。
    • 能够捕捉词与词之间的语义关系,如“国王”和“王后”在向量空间中距离较近。
    • 泛化能力强,可以很好地处理未见过的词。
  • 缺点

    • 无法捕捉长距离依赖关系,因为它是基于局部上下文的。
    • 对于罕见词和未登录词的处理效果不佳。
1.4.4 ELMo(Embeddings from Language Models)

ELMo是由Matthew E. Peters等人在2018年提出的一种预训练语言模型。它首次将预训练思想引入到词向量的生成中,使用双向LSTM结构来捕捉词汇的上下文信息。ELMo的训练分为两个阶段:

  • 预训练阶段:在大型语料库上训练一个双向LSTM语言模型,学习通用的语言知识。

  • 微调阶段:在特定任务上对预训练模型进行微调,使其更适合该任务。

  • 优点

    • 能够捕捉词汇的多义性和上下文信息,生成的词向量更加丰富和准确。
    • 适用于多种NLP任务,如文本分类、实体识别等。
  • 缺点

    • 模型复杂度高,训练时间长,计算资源消耗大。
    • 依赖于大量的标注数据进行微调。

参考资料

  1. DataWhale Happy-LLM学习文档
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值