动手学深度学习v2-李沐 softmax简洁实现

最新推荐文章于 2025-04-10 14:58:26 发布

阿瑞Ari

最新推荐文章于 2025-04-10 14:58:26 发布

阅读量90

点赞数

文章标签：深度学习人工智能

代码部分

import torch
from torch import nn
from d2l import torch as d2l

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

初始化模型参数

softmax回归的输出层是一个全连接层。因此，为了实现我们的模型，我们只需在Sequential中添加一个带有10个输出的全连接层。同样，在这里Sequential并不是必要的，但它是实现深度模型的基础。我们仍然以均值0和标准差0.01随机初始化权重。

# PyTorch不会隐式地调整输入的形状。因此，
# 我们在线性层前定义了展平层（flatten），来调整网络输入的形状
net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights);

loss = nn.CrossEntropyLoss(reduction='none')

优化算法

在这里，我们使用学习率为0.1的小批量随机梯度下降作为优化算法。这与我们在线性回归例子中的相同，这说明了优化器的普适性。

trainer = torch.optim.SGD(net.parameters(), lr=0.1)

训练

num_epochs = 10
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿瑞Ari

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【动手学深度学习v2】深度学习-李沐老师课程中代码详解-softmax

08-09

【动手学深度学习v2】深度学习——李沐老师课程中代码详解——softmax

21年更新-李沐《动手学深度学习第二版》:讲义+数据+代码等

04-15

gitignore Dockerfile INFO.md Jenkinsfile LICENSE Makefile README.md setup.py STY LE_GUIDE.md TERMINOLOGY.md build chapter _appendix chapter_computational-performa nce chapter_computer-vision ...img

参与评论您还未登录，请先登录后发表或查看评论

【动手学深度学习v2】深度学习-李沐老师课程中代码详解-权重衰退

08-09

【动手学深度学习v2】深度学习——李沐老师课程中代码详解——权重衰退

【动手学深度学习v2】深度学习-李沐老师课程中代码详解-drop out

08-09

【动手学深度学习v2】深度学习——李沐老师课程中代码详解——drop out

【动手学深度学习v2】深度学习-李沐老师课程中代码详解-10多层感知机

08-09

【动手学深度学习v2】深度学习——李沐老师课程中代码详解——10多层感知机

NLP实战(2)：RNN和RNN Cell的序列处理

最新发布

Henry的博客

04-10

410

全连接神经网络也叫做Dense神经网络，利用线性层对特征进行变换例如，如果想要做预测是否下雨的系统，传统的DNN都是利用当天的数据特征进行预测但这样其实是没有用的，因为预测都是提前的，换句话说，我们需要利用前面的数据预测下一次的天气那么想要预测第四天的天气，需要前面三天的输入作为特征，假设每天都有三个特征的话，那么输入就是9个如果说利用DNN网络的话，需要把三天的特征展平、拼接成9维度的这样其实计算是很复杂的，因为DNN的网络参数非常多。因为CNN使用了权重共享RNN专门用来处理这种带有。

AF3 OpenFoldDataLoader类_prep_batch_properties_probs方法解读

qq_27390023的博客

04-06

640

AlphaFold3 data_modules 模块的 OpenFoldDataLoader 类的 _prep_batch_properties_probs 方法是为每个批次数据准备 recycling 维度的概率分布。它将根据配置文件中的设定为每个批次数据生成 recycling 轮次的概率分布，并存储到 prop_probs_tensor 中，用于后续抽样选择特定recycling维度的数据（ _add_batch_properties方法中实现）。

神经网络与深度学习：案例与实践——第三章（2）

2301_79679684的博客

04-05

654

Logistic回归可以有效地解决二分类问题，但在分类任务中，还有一类多分类问题，即类别数C大于2 的分类问题。Softmax回归就是Logistic回归在多分类问题上的推广。使用Softmax回归模型对一个简单的数据集进行多分类实验。

智能气候前沿：AI Agent结合机器学习与深度学习在全球气候变化驱动因素预测

2401_89571885的博客

04-07

999

智能气候前沿：AI Agent结合机器学习与深度学习在全球气候变化驱动因素预测

科普：GRU、LSTM及RNN

qiy_icbc的博客

04-07

879

GRU（门控循环单元）、LSTM（长短期记忆网络）、RNN（循环神经网络）均为处理序列数据的神经网络模型，它们之间存在着紧密的联系与明显的差异。

从代码学习深度学习 - 注意力汇聚：注意力评分函数(加性和点积注意力) PyTorch 版

weixin_43887510的博客

04-10

811

在深度学习领域，注意力机制（Attention Mechanism）已经成为许多模型的核心组件，尤其是在自然语言处理（NLP）和计算机视觉任务中。注意力机制的核心思想是通过计算查询（Query）与键（Key）之间的相关性，动态地为值（Value）分配权重，从而聚焦于最重要的信息。本篇博客将通过 PyTorch 代码，深入探讨注意力汇聚（Attention Pooling）的两种常见评分函数：加性注意力（Additive Attention）和点积注意力（Dot Product Attention）。

人工智能-深度学习导学-01

奔心小韩的博客

04-07

677

深度学习那些事儿：从训练循环到热门技术，一篇讲透！

深度学习篇---Prophet时间序列预测工具

道阻且长，行则将至。

04-07

933

本文简单介绍了Prophet时间预测工具的使用等相关知识。Prophet是Facebook核心数据科学团队开发的一个开源时间序列预测工具，于2017年发布。

深度学习的下一个突破：从图像识别到情境理解

HUIBUR的博客

04-07

793

例如，如果AI在大量数据中发现“雨天时路上行人打伞的概率很高”，它可以基于模式学习来预测某天的场景中可能会出现打伞的人，但它无法理解“因为下雨，所以人们需要打伞”这一因果关系。而如今，借助视觉-语言模型、多模态融合、因果推理和3D感知等技术，AI正逐步从“看得见”走向“看得懂”，在自动驾驶、智能安防、医疗诊断、机器人交互等领域展现出巨大的潜力。从自动驾驶的智能决策，到智能安防的行为预测，从机器人交互的自然化，到医疗诊断的精准化，AI正在从“识别世界”走向“理解世界”。AI对情境的理解，往往依赖于训练数据。

解锁深度学习激活函数

2403_87387270的博客

04-09

690

在深度学习的广袤天地里，激活函数宛如隐匿于神经网络架构中的神奇密码，掌控着模型学习与表达的关键力量。今天，就让我们一同深入探究这些激活函数的奇妙世界，揭开它们神秘的面纱。

【深度学习】PyTorch实现VGG16模型及网络层数学原理

zq563100792的博客

04-10

575

✅ 实现VGG16网络结构✅ 在CIFAR10数据集上训练分类模型。

ResNet改进(18)：添加 CPCA通道先验卷积注意力机制

2401_82355416的博客

04-06

527

CPCA（Channel Prior Convolutional Attention）是一种结合通道先验信息的卷积注意力机制，旨在通过显式建模通道间关系来增强特征表示能力。以下是完整的ResNet融合CPCA模块的实现代码（基于PyTorch框架）。在ResNet中添加入CPCA模块，需要对ResNet的每个残差块进行修改。类，在原始ResNet的BasicBlock基础上添加了CPCA模块。输入形状: torch.Size([2, 3, 224, 224])：利用已知的通道分布规律指导注意力权重计算。

YOLOv12即插即用--CPAM

llz19670的博客

04-09

本文提出了一种新型基于注意尺度序列融合的 YOLO 框架，称为，该框架结合空间与尺度信息，实现了高效且精确的细胞实例分割。在 YOLO 分割框架的基础上，设计了，用于增强多尺度信息提取能力；同时引入，以融合不同尺度下的特征图，从而丰富目标细节表达。此外，提出一种，用于集成 SSFF 与 TPE 模块，增强模型对小目标的通道依赖性与空间定位能力，进一步提升检测与分割性能。在两个细胞图像数据集上的实验表明，ASF-YOLO 在分割精度与推理速度方面均优于现有先进方法。

IAGCN：登上《Nature》的深度学习可解释性情感分析模型突破

陈奕昆的博客

04-06

983

社交媒体时代，用户生成内容的情感分析需求激增。传统方面级情感分析模型在复杂语境下存在特征交互捕捉不足、情感极性判定偏差等问题。微软亚洲研究院联合清华大学提出的，通过创新的多模态交互机制，在Twitter、LAP14等5大基准数据集上实现SOTA性能，相关成果于2025年4月发表于《Nature》正刊。

李沐动手学深度学习配套：pytorch代码解析

李沐博士在深度学习和自然语言处理领域有着广泛的研究，如果此处提及的李沐正是李沐博士，那么他所著或主导的“动手学深度学习配套”资源想必对初学者非常友好，因为它将理论与实践紧密结合，并且着重于动手实践来...