笔记分享: 西安交通大学COMP561605自然语言理解——05. 语言模型(神经网络)

原创

已于 2024-11-25 21:46:58 修改 · 1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #语言模型 #神经网络 #自然语言处理 #深度学习 #机器学习 #人工智能

于 2024-11-23 00:07:46 首次发布

文章目录

$\textbf{0. }$ 写在前面
$\textbf{1. }$ 词表示 $\textbf{\&NN}$ 语言模型
$\textbf{2. Word2vec}$ 模型
$\textbf{3. }$ 其它模型
- $\textbf{3.1. }\textbf{C\&W}$ 模型
- $\textbf{3.2. GloVe}$ 模型

有关

\text{Github}

仓库欢迎来

\text{Star}

，期末考题

$\textbf{0. }$ 写在前面

1️⃣本课程总体结构

这门课由于由两位老师授课，个人感觉结构比较混乱

由于时间紧任务重经费无，所以笔记还是按 $\text{PPT}$ 内容和以上结构展开，即使有很多不合理的地方

2️⃣考试有关事项

$\textbf{1. }$ 词表示 $\textbf{\&NN}$ 语言模型

$\textbf{1.1. }$ 离散式表示
1️⃣ $\text{One-Hot}$ 编码
构建方法：
构建词汇表：包含所有要处理的独立词，表大小(词数量)决定了向量维度
Vocabulary = [apple, banana, pineapple]
向量分配：每个词分配一个唯一的向量，即每词对应一个维度并设为 $1$ (其余设为 $0$ )
[1,0,0] = apple
[0,1,0] = banana
[0,0,1] = pineapple
缺点：高维且稀疏，无法体现语义关系(例如 $\text{cos}\langle\text{apple, banana}\rangle\text{=0}$ 即使这二者关系很大)
2️⃣ $\text{WordNet}$
语义关系

关系含义实例

上位词 $\text{}\xleftrightarrow{}\text{}$ 下位词更一般的概念 $\text{}\xleftrightarrow{}\text{}$ 更具体的概念 $\text{animal}\xleftrightarrow{}\text{dog}$

部分类 $\text{}\xleftrightarrow{}\text{}$ 整体类某物组成部分 $\text{}\xleftrightarrow{}\text{}$ 某物整体组合 $\text{wheel}\xleftrightarrow{}\text{car}$

反义词意义相反的词 $\text{small}\xleftrightarrow{}\text{big}$

多义词一个词具有多重含义 $\text{bank}$ 表示河岸和银行
$\text{WordNet}$ 概述：
概念：一大型英语词汇库，将名词 $/$ 动词 $/$ 形容词 $/$ 副词组织为一系列同义词集(如下)
car, automobile, machine, motorcar
层次：语义网络，即结点(同义词集) $+$ 边(同义词集间的语义关系)
缺点：更新困难 $/$ 设计时具有主观性 $/$ 多义词的存在…
$\textbf{1.2. }$ 分布式表示

1️⃣基本概念

目的：将词 $/$ 句子 $\xrightarrow{编码}$ 稠密低维向量

核心：通过词的上下文(词固定窗口范围内的内容)提取词的含义，并将其含义编码在自身向量中

2️⃣相似性度量：余弦相似度 $\text{cosine}(A, B)\text{=}\cfrac{A \text{×} B}{\|A\|\|B\|}$

3️⃣分布式模型：基于神经网络的语言模型

原理实例

基于预测 $\text{Word2Vec(CBOW, Skip-gram)/GloVe}$

基于上下文表示 $\text{BiLSTM/BERT}$

$\textbf{1.3. }$ 神经网络语言模型的结构

步骤描述

词向量通过分布式表示等，得到 $\{x^{(1)}, x^{(2)}, \text{...}, x^{(t)}\}$

词嵌入 $\{x^{(1)}, x^{(2)}, \text{...}, x^{(t)}\}\xrightarrow{\text{embedding}}\{e^{(1)}, e^{(2)},e^{(3)}, \text{...}\}$

隐藏层获得 $h\text{=}f(We\text{+}b_1)$

输出层获得 $\hat{y}\text{=Softmax}\left(U h\text{+}b_2\right) \text{ ∈ }\mathbb{R}^{|V|}$

关系	含义	实例
上位词 $\text{}\xleftrightarrow{}\text{}$ 下位词	更一般的概念 $\text{}\xleftrightarrow{}\text{}$ 更具体的概念	$\text{animal}\xleftrightarrow{}\text{dog}$
部分类 $\text{}\xleftrightarrow{}\text{}$ 整体类	某物组成部分 $\text{}\xleftrightarrow{}\text{}$ 某物整体组合	$\text{wheel}\xleftrightarrow{}\text{car}$
反义词	意义相反的词	$\text{small}\xleftrightarrow{}\text{big}$
多义词	一个词具有多重含义	$\text{bank}$ 表示河岸和银行

原理	实例
基于预测	$\text{Word2Vec(CBOW, Skip-gram)/GloVe}$
基于上下文表示	$\text{BiLSTM/BERT}$

步骤	描述
词向量	通过分布式表示等，得到 $\{x^{(1)}, x^{(2)}, \text{...}, x^{(t)}\}$
词嵌入	$\{x^{(1)}, x^{(2)}, \text{...}, x^{(t)}\}\xrightarrow{\text{embedding}}\{e^{(1)}, e^{(2)},e^{(3)}, \text{...}\}$
隐藏层	获得 $h\text{=}f(We\text{+}b_1)$
输出层	获得 $\hat{y}\text{=Softmax}\left(U h\text{+}b_2\right) \text{ ∈ }\mathbb{R}^{\|V\|}$

$\textbf{2. Word2vec}$ 模型

$\textbf{2.1. }$ 模型概述

1️⃣基本思想：通过词的上下文来学习其语义，而每个单一词向量无具体含义

构建词汇表：大小固定，其中每个词用词向量表示

文本的表示：每个词的位置 $t$ 被视为中心词 $c$ ，词 $t$ 所在窗口内其它词视为上下文 $o$

优化的途径：不断计算 $c / o$ 之间的相似度 $P (o ∣ c)$ 或 $P (c ∣ o)$ ，调整 $c / o$ 词向量使概率最大化

2️⃣目标函数：给定待优化参数集 $\theta$ 和上下文窗口 $[- m, m]$

最大似然： $\displaystyle{}L(\theta)\text{=}\prod_{t=1}^T \prod_{\substack{-m \leq j \leq m}} P\left(w_{t+j} | w_t ; \theta\right)$

公式含义

$\displaystyle{} \prod_{\substack{-m \leq j \leq m}} P\left(w_{t+j} | w_t ; \theta\right)$