DAY 1 动手学习深度学习

最新推荐文章于 2025-05-23 09:16:47 发布

qq_44812776

最新推荐文章于 2025-05-23 09:16:47 发布

阅读量191

点赞数

分类专栏： Datawhale 文章标签： python 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_44812776/article/details/104318979

版权

Datawhale 专栏收录该内容

7 篇文章

订阅专栏

本文深入浅出地介绍了深度学习的基础知识，包括线性回归、Softmax与分类模型、多层感知机等，并探讨了文本预处理、语言模型及循环神经网络在自然语言处理中的应用。通过从零开始的实现和PyTorch简洁实现，帮助读者更好地理解模型原理并快速上手。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【任务安排】：
Task01：线性回归；Softmax与分类模型、多层感知机（1天）
Task02：文本预处理；语言模型；循环神经网络基础（1天）

Task01：

线性回归

从零开始的实现（推荐用来学习）
能够更好的理解模型和神经网络底层的原理
使用pytorch的简洁实现
能够更加快速地完成模型的设计与实现

Softmax与分类模型

softmax回归的基本概念
如何获取Fashion-MNIST数据集和读取数据
softmax回归模型的从零开始实现，实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型
使用pytorch重新实现softmax回归模型

多层感知机

多层感知机的基本知识
使用多层感知机图像分类的从零开始的实现
使用pytorch的简洁实现

Task02：

文本预处理
预处理通常包括四个步骤：

读入文本
分词
建立字典，将每个词映射到一个唯一的索引（index）
将文本从词的序列转换为索引的序列，方便输入模型

语言模型
一段自然语言文本可以看作是一个离散时间序列，给定一个长度为 TT 的词的序列 w1,w2,…,wTw1,w2,…,wT ，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：

P(w1,w2,…,wT).
P(w1,w2,…,wT).

本节我们介绍基于统计的语言模型，主要是 nn 元语法（ nn -gram）。

思考： nn 元语法可能有哪些缺陷？

参数空间过大数据稀疏

循环神经网络基础
下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量H，用Ht表示H在时间步t的值。Ht的计算基于Xt和Ht−1，可以认为Ht记录了到当前字符为止的序列信息，利用Ht对序列的下一个字符进行预测。
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。