文章目录
有关 Github \text{Github} Github仓库欢迎来 Star \text{Star} Star, 期末考题
0. \textbf{0. } 0. 写在前面
1️⃣本课程总体结构
![]()
- 这门课由于由两位老师授课,个人感觉结构比较混乱
- 由于时间紧任务重经费无,所以笔记还是按 PPT \text{PPT} PPT内容和以上结构展开,即使有很多不合理的地方
2️⃣考试有关事项
![]()
1. \textbf{1. } 1. 词表示 &NN \textbf{\&NN} &NN语言模型
1.1. \textbf{1.1. } 1.1. 离散式表示
1️⃣ One-Hot \text{One-Hot} One-Hot编码
- 构建方法:
- 构建词汇表:包含所有要处理的独立词,表大小(词数量)决定了向量维度
Vocabulary = [apple, banana, pineapple]- 向量分配:每个词分配一个唯一的向量,即每词对应一个维度并设为 1 1 1(其余设为 0 0 0)
[1,0,0] = apple [0,1,0] = banana [0,0,1] = pineapple- 缺点:高维且稀疏,无法体现语义关系(例如 cos ⟨ apple, banana ⟩ =0 \text{cos}\langle\text{apple, banana}\rangle\text{=0} cos⟨apple, banana⟩=0即使这二者关系很大)
2️⃣ WordNet \text{WordNet} WordNet
- 语义关系
关系 含义 实例 上位词 ↔ \text{}\xleftrightarrow{}\text{} 下位词 更一般的概念 ↔ \text{}\xleftrightarrow{}\text{} 更具体的概念 animal ↔ dog \text{animal}\xleftrightarrow{}\text{dog} animal dog 部分类 ↔ \text{}\xleftrightarrow{}\text{} 整体类 某物组成部分 ↔ \text{}\xleftrightarrow{}\text{} 某物整体组合 wheel ↔ car \text{wheel}\xleftrightarrow{}\text{car} wheel car 反义词 意义相反的词 small ↔ big \text{small}\xleftrightarrow{}\text{big} small big 多义词 一个词具有多重含义 bank \text{bank} bank表示河岸和银行 - WordNet \text{WordNet} WordNet概述:
- 概念:一大型英语词汇库,将名词 / / /动词 / / /形容词 / / /副词组织为一系列同义词集(如下)
car, automobile, machine, motorcar- 层次:语义网络,即结点(同义词集) + + +边(同义词集间的语义关系)
- 缺点:更新困难 / / /设计时具有主观性 / / /多义词的存在…
1.2. \textbf{1.2. } 1.2. 分布式表示
1️⃣基本概念
- 目的:将词 / / /句子 → 编码 \xrightarrow{编码} 编码稠密低维向量
- 核心:通过词的上下文(词固定窗口范围内的内容)提取词的含义,并将其含义编码在自身向量中
2️⃣相似性度量:余弦相似度 cosine ( A , B ) = A × B ∥ A ∥ ∥ B ∥ \text{cosine}(A, B)\text{=}\cfrac{A \text{×} B}{\|A\|\|B\|} cosine(A,B)=∥A∥∥B∥A×B
3️⃣分布式模型:基于神经网络的语言模型
原理 实例 基于预测 Word2Vec(CBOW, Skip-gram)/GloVe \text{Word2Vec(CBOW, Skip-gram)/GloVe} Word2Vec(CBOW, Skip-gram)/GloVe 基于上下文表示 BiLSTM/BERT \text{BiLSTM/BERT} BiLSTM/BERT 1.3. \textbf{1.3. } 1.3. 神经网络语言模型的结构
![]()
步骤 描述 词向量 通过分布式表示等,得到 { x ( 1 ) , x ( 2 ) , ... , x ( t ) } \{x^{(1)}, x^{(2)}, \text{...}, x^{(t)}\} { x(1),x(2),...,x(t)} 词嵌入 { x ( 1 ) , x ( 2 ) , ... , x ( t ) } → embedding { e ( 1 ) , e ( 2 ) , e ( 3 ) , ... } \{x^{(1)}, x^{(2)}, \text{...}, x^{(t)}\}\xrightarrow{\text{embedding}}\{e^{(1)}, e^{(2)},e^{(3)}, \text{...}\} { x(1),x(2),...,x(t)}embedding{ e(1),e(2),e(3),...} 隐藏层 获得 h = f ( W e + b 1 ) h\text{=}f(We\text{+}b_1) h=f(We+b1) 输出层 获得 y ^ =Softmax ( U h + b 2 ) ∈ R ∣ V ∣ \hat{y}\text{=Softmax}\left(U h\text{+}b_2\right) \text{ ∈ }\mathbb{R}^{|V|} y^=Softmax(Uh+b2) ∈ R∣V∣
2. Word2vec \textbf{2. Word2vec} 2. Word2vec模型
2.1. \textbf{2.1. } 2.1. 模型概述
1️⃣基本思想:通过词的上下文来学习其语义,而每个单一词向量无具体含义
![]()
- 构建词汇表:大小固定,其中每个词用词向量表示
- 文本的表示:每个词的位置 t t t被视为中心词 c c c,词 t t t所在窗口内其它词视为上下文 o o o
- 优化的途径:不断计算 c / o c/o c/o之间的相似度 P ( o ∣ c ) P(o|c) P(o∣c)或 P ( c ∣ o ) P(c|o) P(c∣o),调整 c / o c/o c/o词向量使概率最大化
2️⃣目标函数:给定待优化参数集 θ \theta θ和上下文窗口 [ − m , m ] [-m,m] [−m,m]
- 最大似然: L ( θ ) = ∏ t = 1 T ∏ − m ≤ j ≤ m P ( w t + j ∣ w t ; θ ) \displaystyle{}L(\theta)\text{=}\prod_{t=1}^T \prod_{\substack{-m \leq j \leq m}} P\left(w_{t+j} | w_t ; \theta\right) L(θ)=t=1∏T−m≤j≤m∏P(wt+j∣wt;θ)
公式 含义 ∏ − m ≤ j ≤ m P ( w t + j ∣ w t ; θ ) \displaystyle{} \prod_{\substack{-m \leq j \leq m}} P\left(w_{t+j} | w_t ; \theta\right) −m≤j≤m

最低0.47元/天 解锁文章

2020

被折叠的 条评论
为什么被折叠?



