穗满盈-优快云博客

原创 Transformer原理及实战

warmup：（用于动态学习率先上升后下降）1、防止梯度爆炸2、提升收敛速度3、改善泛化性能，避免过拟合lr_scheduler：用于封装学习率（LambdaLR->学习率函数）

2025-03-23 04:48:28 1745

原创 Sequence2Sequence原理及实战

RNN（LSTM）虽然可以处理序列数据，弹在处理长序列时存在梯度消失或者梯度爆炸问题，导致难以捕捉长距离依赖。

2025-03-21 04:30:00 891

原创循环神经网络

embedding层定义:1)初始化embedding层对象,传入实参(vocab_size,embedding_size),并随机初始化一个矩阵,尺寸为(vocab_size,embedding_size)2)做一次forword正向计算传入tensor尺寸为(1,500),记过embedding层的正向计算得到的是(1,500,16),其中16为定义的embedding_size=16。

2025-03-19 18:39:28 1578

在深度学习中，自定义损失函数（Custom Loss Function）指的是用户根据特定任务需求，手动定义的、用于衡量模型预测值与真实值之间差异的函数。与框架内置的标准损失函数（如均方误差、交叉熵）不同，它允许灵活地融入领域知识、业务逻辑或特殊优化目标。其本质就是通过数学公式定义模型优化的目标比如：自定义层用于构建框架未提供的网络组件，扩展模型结构灵活性。自定义求导用于控制梯度计算逻辑，优化训练过程稳定性或适配特殊需求。

2025-03-17 02:26:17 415

原创深度学习中的核心技术和方法（1）

用于图中观测评估指标。

2025-03-16 18:34:08 423

原创深度学习 & 分类实战

遍历val_loader，把特征，标签放入GPU，logits = model(datas)，损失函数计算损失，logits.argmax得到预测类别，计算准确率。因为神经网络有各种各样的变种，不同的变种是指神经元的组合方式不同，可以拟合各种高级方程，能够学习到不同的数据分布，因此表现好于传统的机器学习算法。定义 forward 进行前向计算（前向传播），将展平后的层的维度按照定义的网络模型逐层输出，其中的运算过程本质上就是矩阵运算。至于如何验证搭建的模型可以训练，可以随机一个输入做一次正向计算。

2025-03-16 16:29:11 376

原创线性回归 & 逻辑回归 & 异常值处理

线性回归是一种经典的统计学习方法，用于建模因变量（目标变量）与一个或多个自变量（特征）之间的线性关系。它的核心思想是通过拟合一条直线（或超平面）来预测目标变量的值其中特点为一个或多个称为回归系数的模型参数的线性组合其中wi为权重，尾项为偏置值，y为目标值单变量：yi为真实值y(hat)i为预测值代价函数与损失函数的区别：1.loss function：即单个样本的mse2.cost function：即所有样本的mse。

2025-03-15 21:07:18 2052

原创机器学习的分类算法

超参全是组合的（estimator：估计器对象，param_grid：估计器参数(dict){“n_neighbors”:[1,3,5]}，cv：指定几折交叉验证）拉普拉斯平滑：为了防止某个特征的概率为0，零概率被修正为小概率，但保留了该0概率特征在该样本中更可能出现的趋势。eg：计算被预测样本与训练集样本的欧式距离，如果邻居个数是5，就会选取的最近的5个邻居，根据5个邻居类别的众数来得到自身类别。原理：P(A|W)=P(W|A)P(A)/P(W) 即特征A在类别W中的出现次数/类别W的样本总数。

2025-03-15 18:54:38 502

原创机器学习特征工程 sklearn 数据集

每次迭代都会训练一个模型，然后根据模型的系数或特征重要性（后面算法会涉及）等指标，确定要移除的特征，直到达到预设的特征数量或模型性能不再提升。2.通过PCA（主成分分析）：从高维特征降为低维特征，实现二维到一维的投影计算，利用n_components将数据分解为较低维空间（比例在0-1之间，通常取0.9-0.95）标准化后的数据符合均值为0方差为1 的分布，标准化之后的分布是没有变化的。适用于大数据量的场景，其每一列的特征都是用自己的均值和标准差。不是标准正态分布，只是均值为0，标准差为1的分布。

2025-03-15 17:50:12 400

flowersling的博客