DAY 1 动手学习深度学习

本文深入浅出地介绍了深度学习的基础知识,包括线性回归、Softmax与分类模型、多层感知机等,并探讨了文本预处理、语言模型及循环神经网络在自然语言处理中的应用。通过从零开始的实现和PyTorch简洁实现,帮助读者更好地理解模型原理并快速上手。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【任务安排】:
Task01:线性回归;Softmax与分类模型、多层感知机(1天)
Task02:文本预处理;语言模型;循环神经网络基础(1天)

Task01:

线性回归

  1. 从零开始的实现(推荐用来学习)
    能够更好的理解模型和神经网络底层的原理

  2. 使用pytorch的简洁实现
    能够更加快速地完成模型的设计与实现

Softmax与分类模型

  1. softmax回归的基本概念
  2. 如何获取Fashion-MNIST数据集和读取数据
  3. softmax回归模型的从零开始实现,实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型
  4. 使用pytorch重新实现softmax回归模型

多层感知机

  1. 多层感知机的基本知识
  2. 使用多层感知机图像分类的从零开始的实现
  3. 使用pytorch的简洁实现

Task02:

文本预处理
预处理通常包括四个步骤:

  1. 读入文本
  2. 分词
  3. 建立字典,将每个词映射到一个唯一的索引(index)
  4. 将文本从词的序列转换为索引的序列,方便输入模型

语言模型
一段自然语言文本可以看作是一个离散时间序列,给定一个长度为 TT 的词的序列 w1,w2,…,wTw1,w2,…,wT ,语言模型的目标就是评估该序列是否合理,即计算该序列的概率:

P(w1,w2,…,wT).
P(w1,w2,…,wT).

本节我们介绍基于统计的语言模型,主要是 nn 元语法( nn -gram)。

思考: nn 元语法可能有哪些缺陷?

参数空间过大 数据稀疏

循环神经网络基础
下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量H,用Ht表示H在时间步t的值。Ht的计算基于Xt和Ht−1,可以认为Ht记录了到当前字符为止的序列信息,利用Ht对序列的下一个字符进行预测。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值