【任务安排】:
Task01:线性回归;Softmax与分类模型、多层感知机(1天)
Task02:文本预处理;语言模型;循环神经网络基础(1天)
Task01:
线性回归
-
从零开始的实现(推荐用来学习)
能够更好的理解模型和神经网络底层的原理 -
使用pytorch的简洁实现
能够更加快速地完成模型的设计与实现
Softmax与分类模型
- softmax回归的基本概念
- 如何获取Fashion-MNIST数据集和读取数据
- softmax回归模型的从零开始实现,实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型
- 使用pytorch重新实现softmax回归模型
多层感知机
- 多层感知机的基本知识
- 使用多层感知机图像分类的从零开始的实现
- 使用pytorch的简洁实现
Task02:
文本预处理
预处理通常包括四个步骤:
- 读入文本
- 分词
- 建立字典,将每个词映射到一个唯一的索引(index)
- 将文本从词的序列转换为索引的序列,方便输入模型
语言模型
一段自然语言文本可以看作是一个离散时间序列,给定一个长度为 TT 的词的序列 w1,w2,…,wTw1,w2,…,wT ,语言模型的目标就是评估该序列是否合理,即计算该序列的概率:
P(w1,w2,…,wT).
P(w1,w2,…,wT).
本节我们介绍基于统计的语言模型,主要是 nn 元语法( nn -gram)。
思考: nn 元语法可能有哪些缺陷?
参数空间过大 数据稀疏
循环神经网络基础
下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量H,用Ht表示H在时间步t的值。Ht的计算基于Xt和Ht−1,可以认为Ht记录了到当前字符为止的序列信息,利用Ht对序列的下一个字符进行预测。