Transformers快速入门-学习笔记

原创

已于 2025-03-01 11:42:54 修改 · 765 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#学习 #笔记 #自然语言处理

于 2025-02-23 17:26:58 首次发布

一、自然语言处理
- NLP 是借助计算机技术研究人类语言的科学
- 自然语言处理发展史
  - 一、不懂语法怎么理解语言
    - 依靠语言学家人工总结文法规则
      - Chomsky Formal Languages
    - 难点：上下文有关文法
      - 规则增多，存在矛盾
  - 二、只要看得足够多，就能处理语言
    - 基于数学模型和统计方法
      - 通信系统加隐马尔可夫模型
        
        对一维且有序任务有优势
        
        对二维及次序变化任务不能处理
    - 硬件能力提升、海量数据，统计机器学习方法
      - 基于有向图的统计模型
        
        如2005年 Google 基于统计方法的翻译系统超过基于规则的SysTran系统
      - 2006年 Hinton 证明深度信念网络 DBN ，逐层预训练策略，基于神经网络和反向传播算法 Back Propagation 的深度学习方法； LSTM 长短时记忆网络；2024年 xLSTM
      - 卷积神经网络 CNN ； 2017年 Attention 注意力模型 Transformer 结构
- 统计语言模型发展史
  - 为自然语言建立数学模型
    - 判断一个文字序列是否构成人类能理解并且有意义的句子
  - 70年代 Jelinek 贾里尼克统计模型
    - P(S) = P(w_1,w_2,...,w_n)= P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)...P(w_n|w_1,w_2,...,w_{n-1})
    - 词语w_n出现的概率取决于在句子中出现在它之前的所有词（理论上也可以引入出现在它之后的词语）。但是，随着文本长度的增加，条件概率P(w_n| w_1,w_2,…,w_{n-1}) 会变得越来越难以计算，因而在实际计算时会假设每个词语 w_i 仅与它前面的 n-1个词语有关
    - P(w_i|w_1,w_2,...,w_{i-1}) = P(w_i|w_{i-N+1},w_{i-N+2},...,w_{i-1})
    - 这种假设被称为马尔可夫（Markov）假设，对应的语言模型被称为 N 元（N-gram）模型。例如当 N = 2 时，词语 w_i 出现的概率只与它前面的词语w_{i-1} 有关，被称为二元（Bigram）模型；而 N =1 时，模型实际上就是一个上下文无关模型。由于 N 元模型的空间和时间复杂度都几乎是 N 的指数函数，因此实际应用中比较常见的是取 N =3 的三元模型
  - 2003年本吉奥，NNLM 模型，神经网络语言模型
    - 通过输入词语前面的 N-1 个词语来预测当前词语
    - 词表词向量激活函数 Softmax 函数，词表需要学习获得
  - 2013年 Google ，Word2Vec 模型
    - Word2Vec 模型提供的词向量在很长一段时间里都是自然语言处理方法的标配
    - 训练方法 CBOW （Continuous Bag of Words）和 Skip-gram
      - 使用周围词语来预测当前词
        
        使用了上文和下文来预测，打破只通过上文来预测当前词的惯性
      - 使用当前词来预测周围词
    - 多义词问题
      - 运用词语之间的互信息雅让斯基
  - 2018年 ELMo模型 Embeddings from Languages Models
    - 会根据上下文动态的调整词语的词向量
    - 采用双层双向LSTM作为编码器
  - 2018年 BERT模型 Bidirectional Encoder Representations from Transformers
    - 两阶段框架预训练微调
    - 类似ELMo 双向语言模型
    - UNILM 模型
  - 大语言模型

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。