本文为2022秋网安学院的自然语言处理课程期末复习知识点整理,水平有限,整理的答案可能有错误或遗漏,欢迎大家指正。
文章的第二部分内容参考了学校学姐的文章,文章写的很好,大家可以关注她:(133条消息) 【一起入门NLP】中科院自然语言处理期末考试*总复习*:考前押题+考后题目回忆_国科大自然语言处理期末胡玥_vector<>的博客-优快云博客
目录
第一部分 2022秋季课程期末知识点复习
第一章第二章 不考
第三章 神经网络
-
激活函数有哪些,对应的作用
-
tanh
-
sigmoid
-
Relu
-
作用:增加网络的表达能力,给网络增加非线性因素
-
-
神经网络的参数学习方法,各自特点、区别,能解决什么样的问题
-
梯度下降:每次更新时使用所有样本,每次都朝着全局最优方向迭代,适用于样本不多的情况
-
随机梯度下降:每次更新只用1各样本,每次迭代不一定朝着全局最优,但最终结果往往是在全局最优解附近
-
mini-batch梯度下降:每次更新时用b个样本(前两者的折中)
-
-
卷积神经网络的组成部分?各部分的作用
-
卷积层:减少模型参数,进行卷积运算
-
池化层:减少模型规模
-
全连接层:将池化层的单元平化
-
-
递归神经网络
-
网络结构包括哪些部分
-
输入层、隐藏层、输出层

-
参数包括:输入权重Wi、上一时刻权重Wh、输出权重Wo、偏置b
-
-
典型的参数学习方法
-
BPTT
-
-
BPTT算法的原理
-
基本思想和BP算法类似,都是将输出误差以某种形式反传给各层所有单元,各层按照本层误差修正个单元的连接权重
-
但BPTT的参数是共享的,每个时刻训练的都是相同的参数W和b。
-
且BPTT损失函数定义为每一个时刻的损失函数之和,它会在每一个时间步长内叠加所有对应权重的梯度
-
-
-
RNN改进模型LSTM、GRU、Bi-LSTM各自是对之前算法什么问题做出的改进?以及做了哪些改进?
-
LSTM是用来解决RNN的长距离依赖问题,它通过在循环单元内添加门结构来控制单元细胞状态来实现的
-
GRU是用来解决RNN的长距离依赖问题和反向传播的梯度问题,可理解为LSTM的简化,它把LSTM的输入门和遗忘门合并为更新门,删除输出门新增了重置门。
-
LSTM只能根据之前时刻的时序信息预测下一时刻的输出,但有些问题当前时刻的输出不仅与之前的状态有关,与未来的状态也有关系,Bi-LSTM就是为了解决这一问题,做到基于上下文判断。Bi-LSTM可看作两层神经网络,第一层第一层从句子的开头开始输入,第二层则从句子的最后一个词语输入,两层进行相同处理,并对得到的结果共同分析。
-
第四章 语言模型 词向量
-
统计语言模型建模方法(怎么用统计学习的方法构建语言模型)
-
统计语言模型的基本思想:用句子S=w1,w2,…,wn 的概率 p(S) 刻画句子的合理性
-
使用最大似然估计进行参数学习
-
用马尔可夫假设和n-gram模型来解决统计语言模型参数过多的问题
-
用数据平滑解决样本少引起的零概率问题
-
-
几种神经网络语言模型(DNN-NNLM、RNN-RNNLM)
-
模型架构
-
相比的优势和不足
-
RNNLM的优势
-
RNNLM 模型可以保留每个词的全部历史信息,不需简化为n-gram
-
引入词向量作为输入后不需要数据平滑
-
神经网络一般用RNN语言模型
-
-
-
输入、输出、要预测哪些参数、参数学习方法要掌握
-
NNLM
-
输入:上文词向量拼接
-
输出:目标词概率
-
参数学习方法:BP
-
在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量
-
-
RNNLM
-
直接输入:目标词的前一个词的词向量
-
间接输入:网络中的前文信息
-
输出:目标词概率
-
参数学习方法:BPTT
-
在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量
-
-
-
-
词向量
-
典型的词向量:CBOW、skip-gram、C&W要掌握学习方法和区别(输入、输出、学习方法)
-
CBOW
-
输入:上下文词向量平均值
-
输出:目标词概率
-
参数学习方法:梯度下降法
-
-
skip-gram
-
输入:目标词词向量
-
输出:上下文词概率
-
参数学习方法:梯度下降法
-
-
C&W
-
输入:上下文及目标词词向量拼接
-
输出:上下文及目标词联合打分(正样本打高分、负样本打低分(负样本是将正样本序列中的中间词替换成其它词))
-
参数学习方法:采用pairwise的方式对文本片段进行优化
-

-
-
第五章 注意力机制
-
传统注意力机制
-
结构包括哪些模块
-
输入:K(集合)、Q
-
输出:V
-
三个阶段:
-
注意力打分函数
-
softmax
-
加权求和
-
-
-
有哪些计算方法(有哪些注意力计算模式)
-
键值对模式 K!=V 是用V去加权求和计算输出值的
-
普通模式 K=V
-
-
不同类型的注意力机制是如何计算的?
-
软注意力 对输入句子的任意单词都计算概率,输出的是概率分布
-
硬注意力 直接从输入句子中找到某个单词,将其他单词硬性地认为对齐概率为0
-
全局注意力 计算attention时考虑encoding端序列中所有的词
-
局部注意力 软注意力和硬注意力的折中,在一个大小为D的窗口输出概率分布,窗口外的认为对齐概率为0
-
-
注意力机制在nlp领域的应用场景
-
在任何有“求和”的地方都能使用
-
宏观如机器翻译、图卷积的邻接节点聚集
-
-
-
注意力编码机制
-
对不同序列的不同编码方式
-
单一向量编码:将输入序列编码成单一向量表示(句表示、篇章表示、词的上下文表示)
-
不同序列间编码:将2个序列编码成二者融合的向量表示(匹配任务、阅读理解的混合层表示)
-
同一序列自编码:使用多头注意力编码对一个句子编码,起到句法分析器的作用
-
-
不同编码方式的计算方式
-
单一向量编码:句子各元素K序列与Q的关联关系
-
不同序列间编码:对K序列和Q序列编码
-
同一序列自编码:采用多头注意力机制,每头的Q=K=V且参数不共享,最后把各头的结果拼接
-
-
第六章 基础任务
-
文本分类和匹配了解基本技术思路即可
-
序列标注
-
马尔可夫、隐马尔可夫、隐马尔可夫+CRF 模型结构、组成部分有哪些、各组成部分的工作机制
-
马尔可夫模型
-
组成M =( S, π ,A) (三元组)
-
S:模型中状态的集合
-
A:与时间无关的状态转移概率矩阵
-
p:初始状态空间的概率分布
-
-
-
隐马尔可夫模型
-
组成λ =( S, O, π ,A,B)或简写为 λ = (π ,A,B) (五元组)
-
状态序列Q:表示起决定作用的后台本质(天气)
-
观察序列O:表示观察到的前台现象(潮湿。。)
-
B:给定状态下,观察值概率分布
-
-
-
-

本文整理了2022年秋季学期网络安全学院自然语言处理课程的复习资料,涵盖了神经网络、词向量、注意力机制、预训练模型等核心知识点,以及2021年期末考试的相关题型。内容包括各种模型的结构、工作原理和应用场景。
最低0.47元/天 解锁文章
6258

被折叠的 条评论
为什么被折叠?



