Transformers快速入门-学习笔记

  • 一、自然语言处理

    • NLP 是借助计算机技术研究人类语言的科学
    • 自然语言处理发展史
      • 一、不懂语法怎么理解语言
        • 依靠语言学家人工总结文法规则
          • Chomsky Formal Languages
        • 难点:上下文有关文法
          • 规则增多,存在矛盾
      • 二、只要看得足够多,就能处理语言
        • 基于数学模型和统计方法
          • 通信系统加隐马尔可夫模型
            • 对一维且有序任务有优势
            • 对二维及次序变化任务不能处理
        • 硬件能力提升、海量数据,统计机器学习方法
          • 基于有向图的统计模型
            • 如2005年 Google 基于统计方法的翻译系统超过基于规则的SysTran系统
          • 2006年 Hinton 证明深度信念网络 DBN , 逐层预训练策略, 基于神经网络和反向传播算法 Back Propagation 的深度学习方法 ; LSTM 长短时记忆网络 ;2024年 xLSTM
          • 卷积神经网络 CNN ; 2017年 Attention 注意力模型 Transformer 结构
    • 统计语言模型发展史
      • 为自然语言建立数学模型
        • 判断一个文字序列是否构成人类能理解并且有意义的句子
      • 70年代 Jelinek 贾里尼克 统计模型
        • P(S) = P(w_1,w_2,...,w_n)= P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)...P(w_n|w_1,w_2,...,w_{n-1})
        • 词语w_n出现的概率取决于在句子中出现在它之前的所有词(理论上也可以引入出现在它之后的词语)。但是,随着文本长度的增加,条件概率P(w_n| w_1,w_2,…,w_{n-1}) 会变得越来越难以计算,因而在实际计算时会假设每个词语 w_i 仅与它前面的 n-1个词语有关
        • P(w_i|w_1,w_2,...,w_{i-1}) = P(w_i|w_{i-N+1},w_{i-N+2},...,w_{i-1})
        • 这种假设被称为马尔可夫(Markov)假设,对应的语言模型被称为 N 元(N-gram)模型。例如当 N = 2 时,词语 w_i 出现的概率只与它前面的词语w_{i-1} 有关,被称为二元(Bigram)模型;而 N =1 时,模型实际上就是一个上下文无关模型。由于 N 元模型的空间和时间复杂度都几乎是 N 的指数函数,因此实际应用中比较常见的是取 N =3 的三元模型
      • 2003年 本吉奥,NNLM 模型,神经网络语言模型
        • 通过输入词语前面的 N-1 个词语来预测当前词语
        • 词表 词向量 激活函数 Softmax 函数 , 词表 需要学习获得
      • 2013年 Google ,Word2Vec 模型
        • Word2Vec 模型提供的词向量在很长一段时间里都是自然语言处理方法的标配
        • 训练方法 CBOW (Continuous Bag of Words)和 Skip-gram
          • 使用周围词语来预测当前词
            • 使用了上文和下文来预测,打破只通过上文来预测当前词的惯性
          • 使用当前词来预测周围词
        • 多义词问题
          • 运用词语之间的互信息 雅让斯基
      • 2018年 ELMo模型 Embeddings from Languages Models
        • 会根据上下文动态的调整词语的词向量
        • 采用双层双向LSTM作为编码器
      • 2018年 BERT模型 Bidirectional Encoder Representations from Transformers
        • 两阶段框架 预训练 微调
        • 类似ELMo 双向语言模型
        • UNILM 模型
      • 大语言模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值