深度学习
文章平均质量分 97
好运连连女士
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
李沐 《动手学深度学习》 | 实战Kaggle比赛:预测房价
房价预测比赛数据预处理摘要本文介绍了Kaggle房价预测比赛的数据集下载与预处理方法。数据集包含1460条训练样本(81维)和1459条测试样本(80维),每条记录包含房屋属性和价格标签。通过建立DATA_HUB字典管理数据集URL和校验码,使用download函数实现缓存下载功能。预处理阶段,首先合并训练测试数据集,处理数值特征:1)标准化至零均值和单位方差;2)用均值填充缺失值;3)离散特征转换为独热编码。最后,将处理后的数据划分为训练集和验证集,为后续房价预测模型构建做准备。原创 2025-06-11 22:11:48 · 1502 阅读 · 0 评论 -
李沐《动手学深度学习》 | 数值稳定性
深度学习中的数值稳定性问题主要包括梯度消失和梯度爆炸。梯度消失是指反向传播时梯度指数级衰减,导致底层参数几乎不更新;梯度爆炸则是梯度指数级增长,造成参数更新过大。常见解决方法包括:1) 使用合适的权重初始化策略(如Xavier和He初始化);2) 采用Batch Normalization调整激活值分布;3) 选择适当的激活函数(如ReLU替代Sigmoid)。这些技术有助于保持梯度在合理范围内,使深层网络训练更稳定高效。数值稳定性问题会影响模型收敛,但通过合理设计可以显著改善训练效果。原创 2025-06-04 20:25:29 · 1269 阅读 · 0 评论 -
误差反向传播法
计算图是表示计算过程的有效工具,由节点和边组成。正向传播从左到右计算,保存中间结果;反向传播从右到左传递梯度,基于链式法则计算导数。神经网络中的反向传播从损失函数开始,逐层求导传递梯度。加法节点反向传播直接传递上游值,乘法节点则需乘以正向输入的翻转值。激活函数层如ReLU和Sigmoid的反向传播实现各异:ReLU根据输入是否大于零决定是否传递梯度,Sigmoid的输出梯度与正向输出y相关。Affine层处理矩阵乘积和偏置,偏置梯度需累加所有样本贡献。该方法通过局部计算简化问题,高效计算导数,是训练神经网络原创 2025-05-27 21:25:38 · 1183 阅读 · 0 评论 -
李沐《动手学深度学习》 | 4.5-4.6 正则化技术:权重衰退与Dropout
正则化是抑制机器学习模型过拟合的重要技术。过拟合指模型在训练数据上表现良好但泛化能力差,常因参数过多或训练数据不足导致。正则化通过约束模型复杂度来缓解过拟合,权值衰退就是一种常用方法。权值衰退通过惩罚大权重来防止过拟合,具体在损失函数中加入L2范数惩罚项 λ∥w∥²,λ控制正则化强度。λ越大,权重越小,模型越简单。实验表明,适当λ能有效减小测试误差,但过大λ会导致欠拟合。实际应用中,λ需要调参确定最优值。原创 2025-05-27 17:10:25 · 815 阅读 · 0 评论 -
李沐《动手学深度学习》| 4.4 模型的选择、过拟合和欠拟合
本文介绍了机器学习中的误差类型、数据集划分、模型评估及过拟合/欠拟合现象。主要内容包括:误差类型:训练误差(训练集误差)和泛化误差(新数据误差,重点关注对象)。数据集划分:训练集:训练模型参数验证集:调整超参数(通过K折交叉验证优化)测试集:最终评估模型(仅使用一次)过拟合与欠拟合:过拟合:训练误差低但泛化误差高,因模型过于复杂欠拟合:训练和泛化误差都高,因模型过于简单最优模型容量应在两者间取得平衡实验方法:通过多项式拟合实验展示不同复杂度模型的表现,帮助理解这些概念。原创 2025-05-25 23:11:49 · 1123 阅读 · 0 评论 -
李沐《动手学深度学习》 | 4.1-4.3 多层感知机
损失函数(单样本)为。原创 2025-05-09 23:15:56 · 1123 阅读 · 0 评论 -
李沐《动手学深度学习》 | Softmax回归 - 分类问题
对于单个样本的输出向量oo1o2ocoo1o2...oc(其中ccc是类别数)softmax操作的公式是softmaxoiexpoi∑k1cexpoksoftmaxoi∑k1cexpokexpoioio_ioi通常表示模型对第iii个类型的原始输出分数,分母是每个类别原始输出分数的和当处理批量数据时,输入是一个矩阵X,矩阵X的形状为N×。原创 2025-05-04 20:18:03 · 1368 阅读 · 0 评论 -
李沐《动手学深度学习》 | 线性神经网络-线性回归
从均值为0、标准差为0.01的正态分布中采样随机数来初始化权重。表示生成一个一维向量,形状为(1,)模型输入X数据集,w权重的矩阵,b偏置量,输出预测的结果y向量"""线性回归模型"""这里使用的均方损失函数12y−y221y−y2,需要比较真实值yyy和预测值y\hat yy之间的差距# 均方损失# 防止形状不匹配,我们统一一下首先需要超参数学习率与批量大小,所以我们将其作为输入lrbatch_size。原创 2025-04-10 22:16:54 · 1220 阅读 · 0 评论 -
pytorch TensorDataset与DataLoader类
该类主要实现以下三个功能①如何获取每一个数据及其label --> 抽象方法。原创 2025-04-10 21:34:59 · 1161 阅读 · 0 评论
分享