DatGuy-优快云博客

原创 Week 31: 深度学习补遗：Mamba

本周的研究了2024年的热门深度学习架构Mamba。从底层的微分方程离散化 (Discretization)入手，理解了 Mamba 的核心创新——选择性扫描 (Selective Scan)，解释了模型是如何通过动态调整时间步长Δ\DeltaΔ来实现类似于 LSTM 门控的“遗忘”与“记忆”机制。Δ\DeltaΔ本周学习了Mamba，不同于 Transformer 的注意力机制，Mamba 是状态空间模型 (SSM)*的集大成者。

2025-12-28 22:06:26 914

原创 Week 30: 机器学习补遗：时序信号处理与数学特征工程

本周重点了解了几种基于信号处理和统计学的时序预处理方法，包括离散小波变换、卡尔曼滤波和分数阶差分，均拥有完备的数学理论支撑。通过数学推导，理解这些方法如何在保留信号有效信息的同时，去除噪声并实现平稳性。本周我们从纯模型的构建暂时抽离，通过严谨的数学推导重新审视了数据预处理环节。小波变换利用正交基函数的多分辨率特性，在不损失时域信息的前提下分离了信号与噪声，优于传统的傅里叶变换。而卡尔曼滤波建立在状态空间与贝叶斯估计之上，为含噪数据提供了一种最优的平滑方案，特别适合流式数据处理。

2025-12-21 21:02:32 804

原创 Week 29: 深度学习补遗：MoE的稳定性机制与路由策略实现

本周的继续了解了MoE，深入探讨了Sparse MoE面临的稳定性挑战及其数学解决方案，并解析了 Noisy Top-K Gating 的数学机理，阐述了其如何通过随机性平滑损失曲面；对比了Token 级与 Pooling 级路由在时序数据归纳偏置上的本质区别；最后，通过推导辅助负载均衡损失（Auxiliary Loss），揭示了如何通过约束优化问题来保证专家利用率的最大熵分布。

2025-12-14 17:33:14 944

原创 Week 28: 机器学习补遗：MoE 原理与时序路由策略

本周重点探讨了混合专家模型 (Mixture of Experts, MoE)。MoE是当前LLM中的研究热点，其思想与集成学习一脉相承，但以端到端可微的方式在深度神经网络中实现。本周比较详细的研究了MoE的数学原理以及从Dense MoE到Sparse MoE的演进逻辑，并针对时间序列数据的非平稳性和时序连续性，深入剖析了Pooling Level MoE相较于传统 Token Level 路由的必要性。

2025-12-07 16:21:15 662

原创 Week 27: 机器学习补遗：XGBoost

本周继续回归经典机器学习领域，对XGBoost 进行了学习。本周重点推导了 XGBoost 基于二阶泰勒展开的目标函数，并结合时序预测场景进行学习。本周重新审视了 XGBoost 这一机器学习界的基本算法，通过手推公式和模拟代码，重新尝试理解传统机器学习算法在时序应用上的独特优越之处。在接触多模态风控数据后，发现对于数值型和类别型密集的表格数据，Transformer等深度模型往往需要极其复杂的 Embedding 设计才能匹敌 XGBoost 的简单暴力。

2025-11-30 20:04:49 699

原创 Week 26: 深度学习补遗：LSTM 原理与代码复现

本周对 LSTM模型利用PyTorch进行了复现，将其实现与数学形式进行了逐条对应，清晰、重点地理解门控机制与细胞状态与其在时序场景下的应用。在 2017 年 Transformer 架构（Attention 机制）横空出世之前，LSTM 曾是序列建模（NLP、语音、时序）的绝对王者。而在 2025 年的今天，它不再是唯一的 SOTA，但依然是非常棒的轻量级选择。本周阅读了一些时序预测领域的工作，发现LSTM在时序预测领域仍然相当活跃，在本周对LSTM进行了数学原理的复习、代码的简单复现和其应用场景的分析。

2025-11-23 17:56:55 1045

原创 Week 25: 深度学习补遗：多模态学习

本周主要了解了多模态学习技术，通过对多模态数据融合的数学原理与其中注意力机制的应用，对多模态特征的处理方法有了基础的了解和认识。本周在比赛中初识了多模态类型的数据，利用这个机会较为初步的认识了多模态的数据的处理。在时序预测中，多模态数据的融合是一个潜力比较大且比较热门的领域，多模态数据的处理和融合策略极大的影响着模型对数据集的拟合能力。本周在了解了多模态底层原理的同时，较为简要的对其代码部分进行了简要的了解，后续将考虑在论文阅读中加强对多模态融合前沿时序模型进行了解。

2025-11-16 16:49:54 491

原创 Week 24: 深度学习补遗：Vision Transformer (ViT) 复现

本周对经典的ViT论文进行了复现，对于其Patch Embedding的相关理念进行了较为深入的理解。通过利用上周编写的Transformer模块进行快速复现，提高复现效率并且深入理解了ViT对Transformer的应用以及异同。本周对ViT论文进行了快速复现，灵活运用了上周编写的Transformer代码，对Positional Encoding部分和EncoderLayer部分进行了复用，大大提高了论文的复现速度。

2025-11-09 19:06:14 831

原创 Week 23: 深度学习补遗：Transformer整体构建

本周主要完成了Transformer的Decoder部分构建和整体的构建，同时对掩码机制进行了一定的了解。从更加全面的角度对Transformer进行认识，同时对一个机器学习模型，尤其是Encoder-Decoder架构的模型的实际架构有了初步的了解。本周，对Transformer模型的构建进行了收尾，更主要的关注在了Transformer模型上的几个灵魂部分，Mask机制上，体会到了不同的Mask机制的不同作用。

2025-11-02 21:29:01 389

原创 Week 22: 深度学习补遗：Transformer+Encoder构建

本周主要完成Transformer Encoder的代码构建，继续深挖几个主要组成部分的数学原理以及代码实现之间的细节，将理论与实践相结合。本周完成了Transformer Encoder部分的完整构建，充分的理解了包括位置编码等几项Transformer关键技术的深层数学原理以及应用效果，借助构建Transformer Encoder深入的理解Encoder乃至一个神经网络构建的基本流程以及前向传播、反向传播的数学公式在PyTorch中的实现。

2025-10-26 10:31:38 495

原创 Week 21: 深度学习补遗：ViT Overview与手搓Multi-Head Attention

本周，阅读了ViT的文献以及进行了多头注意力机制的简单手搓，再次加强了对多头注意力机制与维度变化的理解，花了一定的时间解决了具体实践中维度变化理解的疑难杂症，将理论与实践进行了一定的联系，收获颇丰。本周对ViT模型的文献进行了阅读，开始尝试理解模型的结构和思考其实现方式，对ViT的历史成就与局限性进行了分析和了解。同时，花费一定时间手搓了Multi-Head Attention，后续也将继续对比较重要的机制进行手搓以加强理解。

2025-10-19 21:21:10 448

原创 Week 20: 深度学习补遗：Transformer Decoder架构

本周对Transformer Decoder的结构与设计理念进行了进一步的深入了解，主要了解了自回归的机制与优缺点，并且与非自回归模型进行了对比。并且了解了Transformer Decoder中的交叉注意力模块的设计理念以及Masked自注意力的原理，最后简单了解了Transformer训练的目标和结构。下周预计对Transformer继续进行深入学习，更加深入的了解Transformer的训练Tips&Tricks。

2025-10-11 21:15:28 558

原创 Week 19: 深度学习补遗：自注意力和Transformer Encoder架构

本周对自注意力机制的批量运算数学机制进行了学习，并且对Transformer开始了探究。对Transformer几个关键机制进行了了解，例如残差连接与层归一化等机制，预计下周对Transformer Decoder等相关机制进行探索和学习。

2025-10-05 21:08:34 836

原创 Week 18: 深度学习补遗：Stacking和量子运算Deutsch算法

本周学习了Stacking的集成学习方法，完成了ML Lecture 2017的学习。同时开始了ML Lecture 2021的学习，学习了自注意力相关底层知识，了解了自注意力层的整个运算步骤和原理，预计下周继续学习自注意力，对其底层逻辑继续进行深入研究。本周还进行了量子运算学习的推进，主要学习了Deutsch算法，了解了对死/活黑箱的探测原理，和其与传统运算的一些区别。

2025-09-28 20:21:14 1024

原创 Week 17: 深度学习补遗：Boosting和量子逻辑门

本周对Boosting相关内容进行了收尾，对Adaboost训练出的多个分类器进行聚合的方法进行了了解，同时对Boosting的一般化方法Gradient Boosting进行了学习。最后，对量子逻辑门的概念进行了了解，其区别与普通逻辑门一系列特性，预计下周继续推进量子计算相关学习，在深度学习方面继续学习Stacking相关知识。

2025-09-21 13:28:36 918

原创 Week 16: 深度学习补遗：集成学习进阶与量子计算概念入门

本周跟随李宏毅老师的课程继续学习了Adaboost相关的知识和数学原理推导，同时根据老师的指引开始补充部分量子计算相关的基础知识。本周机器学习方面，学习了Adaboost相关知识和推导，理解了Adaboost更新训练集权重组成新训练集以及利用训练多个分类器提升训练集准确率的方法。学习了量子计算的基本概念，关于矢量定义的相关内容。

2025-09-14 20:30:43 629

原创 Week 15: 深度学习补遗：集成学习初步

本周主要继续跟随了李宏毅老师学习了集成学习有关的知识，围绕集成学习的思想、Bagging和Boosting重新组织数据集的基本思想等进行了基本的了解。本周主要学习了集成学习相关的初级知识，基本了解了Bagging和Boosting技巧的基本思想，同时对决策树以及随机森林的基本理论有了一定的了解。Bagging和Boosting是LLM训练中的重要技巧，下周准备对集成学习相关知识继续进行深入的学习。

2025-09-06 21:36:12 1090

原创 Week 14: 深度学习补遗：迁移学习

本周主要跟随李宏毅老师的课程学习了迁移学习相关的内容，主要对模型微调、多任务学习、领域对抗学习和零样本学习进行了较为深入的了解。本周对迁移学习相关内容进行了学习，主要学习了模型微调和多任务学习、领域对抗学习、零样本学习等知识，认识到迁移学习主要是利用别的领域上大量的样本训练模型初始权重优化训练过程的一些方法，对模型设计和训练有了更进一步的认识。

2025-08-31 11:00:18 546

原创 Week 13: 深度学习补遗：RNN的训练

本周主要跟随李宏毅老师的课程进度，继续学习了RNN的原理部分内容，对数学本质与底层逻辑方面知识继续进行深挖，对BPTT算法和梯度消失问题的解决方法进行了学习。本周对RNN的BPTT算法进行了学习，了解了在时序模型上反向传播算法的实际运作流程，同时对RNN的梯度消失问题的出现原因，以及Clipping解决方案和单位矩阵初始化结局方案进行了一定的了解，同时对LSTM和GRU的模型优化解决方案也进行了认识。

2025-08-24 21:10:14 340

原创 Week 12: 深度学习补遗：RNN与LSTM

本周继续跟随李宏毅老师的课程进行学习，主要对循环神经网络和长短期记忆进行了解和学习，了解其底层逻辑以及具体数学实现。除此之外，还对其奏效的原因和底层逻辑进行了一定程度的认识。本周对循环神经网络和长短期记忆模块进行了一定的认识，学习了普通的循环神经网络如何让时间序列的前文影响后文，还了解了Elman Network、Jordan Network、双向RNN等几种变种。最后，还学习LSTM的数学表示和底层逻辑以及其应用在神经网络中的具体方式和形态。

2025-08-17 20:32:12 919

原创 Week 11: 深度学习补遗：支持向量机

本周主要继续跟进李宏毅老师的进度，学习支持向量机相关的知识，研究其底层数学原理与数学推导。

2025-08-10 18:09:09 939

原创 Week 10: 深度学习补遗：生成式模型

本周继续跟随李宏毅老师的课程进行学习，主要学习了VAE的数学表示以及生成对抗网络的设计概念，对生成式模型有了更深入的了解。本周着重对两种生成式模型进行了学习，研究了VAE的数学原理和抽象模型原理以及生成对抗网络的设计思路，结合前几周所着重学习的无监督学习的知识以及词嵌入知识，对生成式模型的运作原理和几种经典的设计思路有了更加深入和全面的理解。

2025-08-03 17:45:08 659

原创 Week 9: 深度学习补遗：自编码器与生成式模型

本周，跟随李宏毅老师的课程学习了自编码器和生成式模型的课程，两方面的内容关系比较紧密。主要从抽象角度以及一些数学角度对自编码器进行了学习，编码器-解码器架构作为现在模型的一大主流结构，具有比较重要的学习意义，对自编码器以及生成式模型的学习使我对编码器-解码器架构有了一定了解。本周继续对无监督学习的探索，利用词嵌入的知识，继续对自编码器进行了学习。理解到了自编码器的巧思，利用无标注数据进行无监督学习，解决了数据标注的问题，同时也革新了生成式模型的边界。

2025-07-27 20:52:34 1063

原创 Week 8: 深度学习补遗：词嵌入

本周对李宏毅老师的课程继续进行学习，对无监督学习继续进行学习，了解了通过矩阵分解来预测的思想以及在自然语言处理中非常重要的词嵌入及词袋模型等概念，同时对邻近嵌入进行了一定的了解。本周初步了解了词嵌入的相关知识，对自然语言中的词语如何映射成向量有了初步的认识。而临近嵌入等映射方法又对降维操作提供了另一种不同的思路和启发，主要是对于高维空间曲面的有效展平进行了研究，对比只关注映射后变化幅度的PCA方法，近邻映射更加关注点之间的邻近关系，对于含有隐含关系的点云处理有比较重要的意义。

2025-07-20 20:50:05 718

原创 Week 7: 深度学习补遗：线性方法的无监督学习

本周继续跟随李宏毅老师的课程进行学习，主要深入学习了两种线性无监督学习聚类方法，K-means和PCA。同时，对PCA的降维方法的数学原理进行了详细的总结和推导。在本周的学习中，比较重点的关注了无监督学习中降维的数学原理，对最复杂的寻找投影的最大分布进行了一些推导。同时，也介绍了K-means及层次聚类两种比较基本的方法。下周将对非线性的无监督学习方法进行学习。

2025-07-13 20:29:51 657

原创 Week 6: 深度学习补遗：半监督学习

本周继续跟进李宏毅老师的课程进行学习，本周主要对半监督学习的训练方式进行认识和学习，了解其背后的思想以及数学依据。本周主要研究了半监督学习的方法，与监督学习的方法进行了对比，分辨了其底层逻辑的区别以及适用范围。同时，自训练与生成式模型也非常容易混淆，本周对其主要区别，硬标签与软标签进行了区分与理解。最后，学习了两种分别为基于图和基于聚类的自学习方法，同时还学习了熵正则以及平滑正则的正则化方法，对自学习有了相对全面的基本认识。

2025-07-06 20:57:34 853

原创 Week 5: 深度学习补遗：逻辑回归

本周继续跟随李宏毅老师的课程学习，主要对逻辑回归相关内容进行了学习和推导，对多分类任务进行了更加深入的探索。同时，针对判别型模型与生成型模型的区别进行了数学上的推导，建立了一定的认识。在本周的学习中，我学习到了分类任务中的逻辑回归与极大似然中的联系，同时对于判别型与生成型两种模型进行了推导与探讨，理解了两者之间的区别与优劣。接着，对交叉熵这种分类任务中常用的损失函数进行了推导与计算，对其计算逻辑产生了基本的认识。最后，通过对逻辑回归限制的探讨，引出了对特征变换的认识。

2025-06-29 19:08:51 653

原创 Week 4: 深度学习补遗：分类任务

在本周的学习中，对过拟合现象的出现以及解决方案进行了了解和理解，主要对L2正则化的实现方式及其效果进行了认识。同时，对于另一大类问题——分类问题的数学本质进行了推导和理解，回忆和联系了贝叶斯公式等知识，对分类问题进行了初步了解，下周将进入逻辑回归章节的学习。

2025-06-22 19:52:05 1153

原创 Week 3: 深度学习补遗：反向传播与逻辑回归

本周内容主要围绕深度学习的数学本质、激活函数、前向传播与反向传播展开。介绍了深度学习的数学本质，介绍引入非线性激活函数对模型表达能力的重要性。通过矩阵形式描述了神经网络的前向传播过程，展示了多层网络的计算结构。详细推导了反向传播算法，阐明了梯度计算和参数更新的数学原理。最后，结合线性代数矩阵表示，系统总结了神经网络训练的整体流程，阐述了梯度下降法及其在多层网络中的的形态。

2025-06-15 19:08:15 1170

原创 Week 2: 深度学习补遗：评价指标

本周对各个评估指标的计算方式进行了探索和夯实，针对上周的FCNN实现的MNIST手写识别任务简单编写了评估模块，同时对在编写方面发现的宏平均和微平均问题方面进行了探索。下周暂定探索优化器和损失函数，后续将会由浅入深对各种经典的网络结构进行学习。

2025-06-08 20:36:38 795

原创 Week 1: Python类与继承补遗与PyTorch入门

本文总结了深度学习框架PyTorch的基础使用和Python类与继承的相关知识。主要内容包括：1) PyTorch的特点（动态计算图、自动求导、丰富API）及张量操作、自动梯度计算等核心功能；2) Python类的构造方法、继承机制、属性装饰器@property和超类super()的使用；3) 神经网络模块nn.Sequential的两种定义方式。文章通过代码示例详细演示了PyTorch张量初始化运算、Autograd自动微分以及Python类继承的实现方法，为后续深度学习开发打下基础。

2025-06-01 13:09:06 783

MCHacker的专栏