workworkwork勤劳又勇敢-优快云博客

原创 Reinforcement Learning强化学习--李宏毅机器学习笔记

强化学习（Reinforcement Learning）：你不知道输出的“最佳答案”，只能通过与环境互动、收集奖励（Reward）来学习策略。

2025-04-16 09:00:00 1180

原创 Domain Adaptation领域自适应--李宏毅机器学习笔记

传统监督学习假设：训练集与测试集数据分布一致。：测试数据分布与训练数据不同，模型泛化性能骤降。例如在黑白图像上训练数字分类器，测试时用彩色图像，准确率骤降。

2025-04-14 21:15:08 822

原创 Adversarial Attack对抗攻击--李宏毅机器学习笔记

李老师系统介绍了对抗攻击的黑箱与白箱方法，进一步涵盖了如One Pixel Attack、Universal Attack、Adversarial Reprogramming与Backdoor Attack等高级攻击策略，并强调其在图像、语音、文本甚至物理世界中的实际威胁。同时，提出了被动防御（如模糊化、JPEG压缩、随机变换）与主动防御（如对抗训练）两大类应对策略，指出对抗训练兼具“数据增强 + 梯度抗性”的特性，是当前最有效的主动安全手段之一。整体内容展现了深度学习模型在安全性方面的脆弱性与应对挑战。

2025-04-13 20:48:32 1224

原创 Auto-Encoder --李宏毅机器学习笔记

Auto-Encoder（自编码器）是一种典型的Encoder和将输入数据压缩为低维表示Decoder从低维表示重建原始数据最小化输入与输出之间的重建误差本质是“重建（Reconstruction）”，即让输出尽可能还原原始输入Auto-Encoder 只依赖无标签数据，典型的，属于 Pre-Training 方法的一种与 BERT、GPT 相比：BERT 做填空题、GPT 做文本续写，而 Auto-Encoder 做输入重建。尽管方式不同，但目标一致：从无标签数据中学习有效表示。

2025-04-13 14:29:52 968

原创自监督学习BERT--李宏毅机器学习笔记

自监督学习无需人工标注，利用无标签的数据本身构造“输入-输出”对，实现类似有监督的训练。BERT 的预训练过程便是一种自监督学习：随机遮盖（mask）部分文本，然后让模型去预测被遮盖的内容，从而“自我监督”地学习语言知识。BERT 是 Transformer 结构的 Encoder，它接收一个序列输入并输出相同长度的序列向量。在训练过程中。我们知道被mask的字符是什么，而BERT不知道，我们可以用一个来表示这个字符，并使输出和one-hot vector之间的交叉熵损失最小。

2025-04-07 18:28:19 482

原创 Transformer的加速方法--李宏毅机器学习笔记

Reformer核心思想：在标准 self-attention 中，每个 Query 都会对所有 Key 做加权平均（即点积后加 softmax），但实际上很多 attention score 很小，几乎没有贡献，这些值可以直接不计算。好复杂orz，简单图示如下，最后得到的M vector是通用的，算不同b时只需要套用就行。在 self-attention 中，计算开销最大的部分是 Query（Q）与所有 Key（K）之间的点积计算，因为这会形成一个大小为 N×N 的注意力矩阵，计算复杂度为O(N^2)。

2025-04-06 19:53:41 885

原创 Transformer模型及原理--李宏毅机器学习笔记

Transformer 是一种 Seq2Seq 模型，最初用于机器翻译，但其应用远超翻译领域。Seq2Seq模型的特点：输入输出均为序列，输出长度由模型自动决定，适合处理如语音识别、机器翻译等任务。应用场景包括语音识别、翻译、聊天机器人、问答系统、目标检测等。

2025-04-06 09:00:00 584

原创自注意力机制（Self-Attention）--李宏毅机器学习笔记

但是随之而来的问题就是这个向量的长度和词汇数量一样多，比如一句话3个单词，apple是100，bag就得是010，单词越多，向量越长，问题越复杂。以自然语言处理NLP为例，词语转为嵌入向量，送入 Self-Attention 层，使用 Attention 机制建模词与词之间的关系，输出的是“考虑上下文之后”的向量，最终输出用于分类 / 生成 / 序列标注等任务。问题，以前的直觉就是使用 Fully-Connected Network（FCN）逐个处理向量，提取特征，但是这么做容易忽略上下文，导致出错。

2025-04-02 22:21:23 987

原创 GAN生成式对抗网络2--李宏毅机器学习笔记

GAN 的 Generator 训练完成后，我们需要判断它生成的图像到底“好不好”。：Discriminator和Generator需要“棋逢对手” ，否则可能无法获取有用的梯度；：梯度无法直接传导至离散输出（token），常需强化学习（如SeqGAN）配合。Generator 忽略某些真实分布中的子类别（如图中右边的星星）；：早期的 GAN 论文几乎都是靠“放几张图让人看”，没有量化指标；：Generator 只生成一种样式的图像，缺乏多样性；表示分类器越“有信心”，图像更清晰，质量可能越高；

2025-03-29 18:25:54 919

原创 GAN生成对抗网络1--李宏毅机器学习笔记

或在 unconditional 情况下 Y=G(Z)Y = G(Z)Y=G(Z)以训练画图为例，只是训练 Generator 不够 → 难以衡量输出是否“像”如果强迫模型输出一个固定结果，反而会“平均”所有可能，导致输出模糊或不真实。循环训练：G、D 不断“进化”，如同捕食者与拟态动物的对抗演化。” Discriminator，让其认为生成图是“真”的。用 D 的输出作为“评分”，反向传播优化 G。输入图像，输出一个分数（越大代表越真实）用真实图像标记为 1，生成图像标记为 0。

2025-03-27 18:19:20 439

原创卷积神经网络（CNN，Convolutional Neural Network）--李宏毅机器学习笔记

李老师主要介绍了两种”说法“，但实际上是一个意思。这里先概括性总结一遍防止后面不知道在说什么。

2025-03-26 02:36:35 742

原创分类Classification--李宏毅机器学习笔记

分类问题的目标是：给定一个输入（特征向量），输出它所属的类别（label）。虽然分类输出的是类别，但其实现方式可以借鉴回归（Regression）的思想。打个比方，如下图所示，输入x后输出y，我们需要根据输出的数字判断它是那一类，自然而然的想法就是用数字对应类，这种方法在类之间有关系时可行，但是如果类之间没有什么关系，比如动物图像识别时就有问题。

2025-03-25 18:11:55 690

原创批归一化Batch Normalization（BN）--李宏毅机器学习笔记

是一种加速神经网络训练、稳定优化过程的技术。核心思想是对每一层的输入特征进行归一化处理，使它们分布在固定范围内（均值为 0，方差为 1），从而，提升训练效率。

2025-03-24 23:16:08 427

原创自适应学习率--李宏毅机器学习笔记

可能因为前面的小g很小，反应迟钝，一下子无法变大，让学习率没有及时减小，梯度又大，导致无法“刹车”，一下子跨出一大步飞到不知道哪去了。走到终点的时候突然爆炸，原因：在平坦的谷底积累太多小g，导致σ变小，学习率变大，虽然会修正回来但是浪费时间。如果学习率很小，在梯度大的地方没问题，到了梯度g本身很小的地方，乘以学习率后就更小，移动的就更慢了。示例说明，即使梯度不小，loss 也可能停止下降，尤其是在“山谷”两侧震荡时。总体思路是这样的，原来的是这样的，学习率固定。一开始用较小学习率，逐步增大，再慢慢减小。

2025-03-24 22:15:34 866

原创优化失败的原因与措施--李宏毅机器学习笔记

指梯度为零的点，即 ∇L(θ) = 0这类点训练停滞，无法继续更新参数。三类 Critical Point：Local Minima：局部最小值（四周都比它大）Local Maxima：局部最大值（四周都比它小）Saddle Point（鞍点）：部分方向是最小，部分方向是最大 —— 最常见的情况！如果走到了临界点，绿色框里的就为0，能否继续下降让L更小取决于后面一项，严格来说只取决于H，有如下三种状态：全大于0，全小于0，有的大于有的小于0更直观的判断方式是用特征值，什么是特征值我差点忘了哈哈哈哈哈，考研

2025-03-23 20:52:22 342

原创机器学习训练中的技巧--李宏毅机器学习笔记

若不小，可能是以下两个问题：模型太简单，函数集合太小，无法表达理想函数。解决方案：增加模型容量，如：增加输入特征维度使用更深层的神经网络使用更复杂的模型架构（如 Deep Learning）模型容量足够，但 Gradient Descent 卡在局部最优。判断方法：用浅层模型（如 SVM、线性模型）先试，获得 baseline。若更深模型反而 loss 更高，则可能是优化问题。经验总结：看到一个你从来没有做过的问题,也许你可以先跑一些比较小的,比较浅的network,或甚至用一些,不是 deep learn

2025-03-23 19:09:19 888

原创机器学习概念--李宏毅机器学习笔记

此时我们将loss定义为θ的函数L(θ)这个要问的就是这个θ如果它是某一组数值的话会有多不好或有多好通常的流程：1、先给定某一组w，b，c的值假设你知道 w，b，c的值是多少。2、然后把一种Feature x带进去然后看看你估测出来的y是多少。3、再计算一下跟真实的Label之间的差距你得到一个e。4、把所有的误差通通加起来你就得到你的Loss。回顾优化现在的 θ是一个很长的向量我们把它表示成θ1，θ2，θ3 （数字下标）

2025-03-23 01:49:04 905 1