[知识点整理]中科院/国科大自然语言处理nlp 期末考试知识点整理

最新推荐文章于 2024-07-06 00:29:33 发布

原创

最新推荐文章于 2024-07-06 00:29:33 发布 · 7.4k 阅读

·

28

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #人工智能

本文整理了2022年秋季学期网络安全学院自然语言处理课程的复习资料，涵盖了神经网络、词向量、注意力机制、预训练模型等核心知识点，以及2021年期末考试的相关题型。内容包括各种模型的结构、工作原理和应用场景。

本文为2022秋网安学院的自然语言处理课程期末复习知识点整理，水平有限，整理的答案可能有错误或遗漏，欢迎大家指正。

文章的第二部分内容参考了学校学姐的文章，文章写的很好，大家可以关注她：(133条消息) 【一起入门NLP】中科院自然语言处理期末考试*总复习*：考前押题+考后题目回忆_国科大自然语言处理期末胡玥_vector<>的博客-优快云博客

目录

第一部分 2022秋季课程期末知识点复习

第一章第二章不考

第三章神经网络

第四章语言模型词向量

第五章注意力机制

第六章基础任务

第七章预训练语言模型

第八章情感分析（不考）

第九章信息抽取 *

第十章问答系统

第十一章阅读理解

第十二章对话系统（不考）

第二部分 2021秋期末考中考察的知识点

填空题（20题）

简答题（6题）

综合题（计算题+模型结构分析题+模型设计题，3题）

第一部分 2022秋季课程期末知识点复习

第一章第二章不考

第三章神经网络

激活函数有哪些，对应的作用
1. tanh
2. sigmoid
3. Relu
4. 作用：增加网络的表达能力，给网络增加非线性因素
神经网络的参数学习方法，各自特点、区别，能解决什么样的问题
1. 梯度下降：每次更新时使用所有样本，每次都朝着全局最优方向迭代，适用于样本不多的情况
2. 随机梯度下降：每次更新只用1各样本，每次迭代不一定朝着全局最优，但最终结果往往是在全局最优解附近
3. mini-batch梯度下降：每次更新时用b个样本（前两者的折中）
卷积神经网络的组成部分？各部分的作用
1. 卷积层：减少模型参数，进行卷积运算
2. 池化层：减少模型规模
3. 全连接层：将池化层的单元平化
递归神经网络
1. 网络结构包括哪些部分
  1. 输入层、隐藏层、输出层
  2. 参数包括：输入权重Wi、上一时刻权重Wh、输出权重Wo、偏置b
2. 典型的参数学习方法
  1. BPTT
3. BPTT算法的原理
  1. 基本思想和BP算法类似，都是将输出误差以某种形式反传给各层所有单元，各层按照本层误差修正个单元的连接权重
  2. 但BPTT的参数是共享的，每个时刻训练的都是相同的参数W和b。
  3. 且BPTT损失函数定义为每一个时刻的损失函数之和，它会在每一个时间步长内叠加所有对应权重的梯度
RNN改进模型LSTM、GRU、Bi-LSTM各自是对之前算法什么问题做出的改进？以及做了哪些改进？
1. LSTM是用来解决RNN的长距离依赖问题，它通过在循环单元内添加门结构来控制单元细胞状态来实现的
2. GRU是用来解决RNN的长距离依赖问题和反向传播的梯度问题，可理解为LSTM的简化，它把LSTM的输入门和遗忘门合并为更新门，删除输出门新增了重置门。
3. LSTM只能根据之前时刻的时序信息预测下一时刻的输出，但有些问题当前时刻的输出不仅与之前的状态有关，与未来的状态也有关系，Bi-LSTM就是为了解决这一问题，做到基于上下文判断。Bi-LSTM可看作两层神经网络，第一层第一层从句子的开头开始输入，第二层则从句子的最后一个词语输入，两层进行相同处理，并对得到的结果共同分析。

第四章语言模型词向量

统计语言模型建模方法（怎么用统计学习的方法构建语言模型）
1. 统计语言模型的基本思想：用句子S=w1,w2,…,wn 的概率 p(S) 刻画句子的合理性
2. 使用最大似然估计进行参数学习
3. 用马尔可夫假设和n-gram模型来解决统计语言模型参数过多的问题
4. 用数据平滑解决样本少引起的零概率问题
几种神经网络语言模型（DNN-NNLM、RNN-RNNLM）
1. 模型架构
2. 相比的优势和不足
  1. RNNLM的优势
    1. RNNLM 模型可以保留每个词的全部历史信息，不需简化为n-gram
    2. 引入词向量作为输入后不需要数据平滑
    3. 神经网络一般用RNN语言模型
3. 输入、输出、要预测哪些参数、参数学习方法要掌握
  1. NNLM
    1. 输入：上文词向量拼接
    2. 输出：目标词概率
    3. 参数学习方法：BP
    4. 在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量
  2. RNNLM
    1. 直接输入：目标词的前一个词的词向量
    2. 间接输入：网络中的前文信息
    3. 输出：目标词概率
    4. 参数学习方法：BPTT
    5. 在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量
词向量
1. 典型的词向量：CBOW、skip-gram、C&W要掌握学习方法和区别（输入、输出、学习方法）
  1. CBOW
    1. 输入：上下文词向量平均值
    2. 输出：目标词概率
    3. 参数学习方法：梯度下降法
  2. skip-gram
    1. 输入：目标词词向量
    2. 输出：上下文词概率
    3. 参数学习方法：梯度下降法
  3. C&W
    1. 输入：上下文及目标词词向量拼接
    2. 输出：上下文及目标词联合打分（正样本打高分、负样本打低分（负样本是将正样本序列中的中间词替换成其它词））
    3. 参数学习方法：采用pairwise的方式对文本片段进行优化

第五章注意力机制

传统注意力机制
1. 结构包括哪些模块
  1. 输入：K（集合）、Q
  2. 输出：V
  3. 三个阶段：
    1. 注意力打分函数
    2. softmax
    3. 加权求和
2. 有哪些计算方法（有哪些注意力计算模式）
  1. 键值对模式 K！=V 是用V去加权求和计算输出值的
  2. 普通模式 K=V
3. 不同类型的注意力机制是如何计算的？
  1. 软注意力对输入句子的任意单词都计算概率，输出的是概率分布
  2. 硬注意力直接从输入句子中找到某个单词，将其他单词硬性地认为对齐概率为0
  3. 全局注意力计算attention时考虑encoding端序列中所有的词
  4. 局部注意力软注意力和硬注意力的折中，在一个大小为D的窗口输出概率分布，窗口外的认为对齐概率为0
4. 注意力机制在nlp领域的应用场景
  1. 在任何有“求和”的地方都能使用
  2. 宏观如机器翻译、图卷积的邻接节点聚集
注意力编码机制
1. 对不同序列的不同编码方式
  1. 单一向量编码：将输入序列编码成单一向量表示（句表示、篇章表示、词的上下文表示）
  2. 不同序列间编码：将2个序列编码成二者融合的向量表示（匹配任务、阅读理解的混合层表示）
  3. 同一序列自编码：使用多头注意力编码对一个句子编码，起到句法分析器的作用
2. 不同编码方式的计算方式
  1. 单一向量编码：句子各元素K序列与Q的关联关系
  2. 不同序列间编码：对K序列和Q序列编码
  3. 同一序列自编码：采用多头注意力机制，每头的Q=K=V且参数不共享，最后把各头的结果拼接

第六章基础任务

文本分类和匹配了解基本技术思路即可
序列标注
1. 马尔可夫、隐马尔可夫、隐马尔可夫+CRF 模型结构、组成部分有哪些、各组成部分的工作机制
  1. 马尔可夫模型
    1. 组成M ＝（ S, π ，A) （三元组）
      1. S:模型中状态的集合
      2. A：与时间无关的状态转移概率矩阵
      3. p：初始状态空间的概率分布
  2. 隐马尔可夫模型
    1. 组成λ ＝（ S, O, π ，A，B）或简写为 λ = (π ，A，B) （五元组）
      1. 状态序列Q：表示起决定作用的后台本质（天气）
      2. 观察序列O：表示观察到的前台现象（潮湿。。）
      3. B：给定状态下，观察值概率分布

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。