笔记分享: 西安交通大学COMP561605自然语言理解——05. 语言模型(神经网络)


有关 Github \text{Github} Github仓库欢迎来 Star \text{Star} Star期末考题

0.   \textbf{0. } 0. 写在前面

1️⃣本课程总体结构

image-20241119154414877
  • 这门课由于由两位老师授课,个人感觉结构比较混乱
  • 由于时间紧任务重经费无,所以笔记还是按 PPT \text{PPT} PPT内容和以上结构展开,即使有很多不合理的地方

2️⃣考试有关事项

24950624a141b9941650b6187682aa9

1.   \textbf{1. } 1. 词表示 &NN \textbf{\&NN} &NN语言模型

1.1.   \textbf{1.1. } 1.1. 离散式表示

1️⃣ One-Hot \text{One-Hot} One-Hot编码

  1. 构建方法:
    • 构建词汇表:包含所有要处理的独立词,表大小(词数量)决定了向量维度
      Vocabulary = [apple, banana, pineapple]
      
    • 向量分配:每个词分配一个唯一的向量,即每词对应一个维度并设为 1 1 1(其余设为 0 0 0)
      [1,0,0] = apple
      [0,1,0] = banana
      [0,0,1] = pineapple
      
  2. 缺点:高维且稀疏,无法体现语义关系(例如 cos ⟨ apple, banana ⟩ =0 \text{cos}\langle\text{apple, banana}\rangle\text{=0} cosapple, banana=0即使这二者关系很大)

2️⃣ WordNet \text{WordNet} WordNet

  1. 语义关系
    关系 含义 实例
    上位词 ↔ \text{}\xleftrightarrow{}\text{} 下位词 更一般的概念 ↔ \text{}\xleftrightarrow{}\text{} 更具体的概念 animal ↔ dog \text{animal}\xleftrightarrow{}\text{dog} animal dog
    部分类 ↔ \text{}\xleftrightarrow{}\text{} 整体类 某物组成部分 ↔ \text{}\xleftrightarrow{}\text{} 某物整体组合 wheel ↔ car \text{wheel}\xleftrightarrow{}\text{car} wheel car
    反义词 意义相反的词 small ↔ big \text{small}\xleftrightarrow{}\text{big} small big
    多义词 一个词具有多重含义 bank \text{bank} bank表示河岸和银行
  2. WordNet \text{WordNet} WordNet概述:
    • 概念:一大型英语词汇库,将名词 / / /动词 / / /形容词 / / /副词组织为一系列同义词集(如下)
      car, automobile, machine, motorcar
      
    • 层次:语义网络,即结点(同义词集) + + +边(同义词集间的语义关系)
  3. 缺点:更新困难 / / /设计时具有主观性 / / /多义词的存在…

1.2.   \textbf{1.2. } 1.2. 分布式表示

1️⃣基本概念​

  1. 目的:将词 / / /句子 → 编码 \xrightarrow{编码} 编码 稠密低维向量
  2. 核心:通过词的上下文(词固定窗口范围内的内容)提取词的含义,并将其含义编码在自身向量中

2️⃣相似性度量:余弦相似度 cosine ( A , B ) = A × B ∥ A ∥ ∥ B ∥ \text{cosine}(A, B)\text{=}\cfrac{A \text{×} B}{\|A\|\|B\|} cosine(A,B)=A∥∥BA×B

3️⃣分布式模型:基于神经网络的语言模型

原理 实例
基于预测 Word2Vec(CBOW, Skip-gram)/GloVe \text{Word2Vec(CBOW, Skip-gram)/GloVe} Word2Vec(CBOW, Skip-gram)/GloVe
基于上下文表示 BiLSTM/BERT \text{BiLSTM/BERT} BiLSTM/BERT

1.3.   \textbf{1.3. } 1.3. 神经网络语言模型的结构

image-20241120203700965
步骤 描述
词向量 通过分布式表示等,得到 { x ( 1 ) , x ( 2 ) , ... , x ( t ) } \{x^{(1)}, x^{(2)}, \text{...}, x^{(t)}\} { x(1),x(2),...,x(t)}
词嵌入 { x ( 1 ) , x ( 2 ) , ... , x ( t ) } → embedding { e ( 1 ) , e ( 2 ) , e ( 3 ) , ... } \{x^{(1)}, x^{(2)}, \text{...}, x^{(t)}\}\xrightarrow{\text{embedding}}\{e^{(1)}, e^{(2)},e^{(3)}, \text{...}\} { x(1),x(2),...,x(t)}embedding { e(1),e(2),e(3),...}
隐藏层 获得 h = f ( W e + b 1 ) h\text{=}f(We\text{+}b_1) h=f(We+b1)
输出层 获得 y ^ =Softmax ( U h + b 2 )  ∈  R ∣ V ∣ \hat{y}\text{=Softmax}\left(U h\text{+}b_2\right) \text{ ∈ }\mathbb{R}^{|V|} y^=Softmax(Uh+b2) ∈ RV

2.   Word2vec \textbf{2. Word2vec} 2. Word2vec模型

2.1.   \textbf{2.1. } 2.1. 模型概述

1️⃣基本思想:通过词的上下文来学习其语义,而每个单一词向量无具体含义

image-20241122081043926
  1. 构建词汇表:大小固定,其中每个词用词向量表示
  2. 文本的表示:每个词的位置 t t t被视为中心词 c c c,词 t t t所在窗口内其它词视为上下文 o o o
  3. 优化的途径:不断计算 c / o c/o c/o之间的相似度 P ( o ∣ c ) P(o|c) P(oc) P ( c ∣ o ) P(c|o) P(co),调整 c / o c/o c/o词向量使概率最大化

2️⃣目标函数:给定待优化参数集 θ \theta θ和上下文窗口 [ − m , m ] [-m,m] [m,m]

  1. 最大似然: L ( θ ) = ∏ t = 1 T ∏ − m ≤ j ≤ m P ( w t + j ∣ w t ; θ ) \displaystyle{}L(\theta)\text{=}\prod_{t=1}^T \prod_{\substack{-m \leq j \leq m}} P\left(w_{t+j} | w_t ; \theta\right) L(θ)=t=1TmjmP(wt+jwt;θ)
    公式 含义
    ∏ − m ≤ j ≤ m P ( w t + j ∣ w t ; θ ) \displaystyle{} \prod_{\substack{-m \leq j \leq m}} P\left(w_{t+j} | w_t ; \theta\right) mjm
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值