- 博客(17)
- 收藏
- 关注
原创 Reinforcement Learning强化学习--李宏毅机器学习笔记
强化学习(Reinforcement Learning):你不知道输出的“最佳答案”,只能通过与环境互动、收集奖励(Reward)来学习策略。
2025-04-16 09:00:00
968
原创 Domain Adaptation领域自适应--李宏毅机器学习笔记
传统监督学习假设:训练集与测试集数据分布一致。:测试数据分布与训练数据不同,模型泛化性能骤降。例如在黑白图像上训练数字分类器,测试时用彩色图像,准确率骤降。
2025-04-14 21:15:08
754
原创 Adversarial Attack对抗攻击--李宏毅机器学习笔记
李老师系统介绍了对抗攻击的黑箱与白箱方法,进一步涵盖了如One Pixel Attack、Universal Attack、Adversarial Reprogramming与Backdoor Attack等高级攻击策略,并强调其在图像、语音、文本甚至物理世界中的实际威胁。同时,提出了被动防御(如模糊化、JPEG压缩、随机变换)与主动防御(如对抗训练)两大类应对策略,指出对抗训练兼具“数据增强 + 梯度抗性”的特性,是当前最有效的主动安全手段之一。整体内容展现了深度学习模型在安全性方面的脆弱性与应对挑战。
2025-04-13 20:48:32
1042
原创 Auto-Encoder --李宏毅机器学习笔记
Auto-Encoder(自编码器)是一种典型的Encoder和将输入数据压缩为低维表示Decoder从低维表示重建原始数据最小化输入与输出之间的重建误差本质是“重建(Reconstruction)”,即让输出尽可能还原原始输入Auto-Encoder 只依赖无标签数据,典型的,属于 Pre-Training 方法的一种与 BERT、GPT 相比:BERT 做填空题、GPT 做文本续写,而 Auto-Encoder 做输入重建。尽管方式不同,但目标一致:从无标签数据中学习有效表示。
2025-04-13 14:29:52
867
原创 自监督学习BERT--李宏毅机器学习笔记
自监督学习无需人工标注,利用无标签的数据本身构造“输入-输出”对,实现类似有监督的训练。BERT 的预训练过程便是一种自监督学习:随机遮盖(mask)部分文本,然后让模型去预测被遮盖的内容,从而“自我监督”地学习语言知识。BERT 是 Transformer 结构的 Encoder,它接收一个序列输入并输出相同长度的序列向量。在训练过程中。我们知道被mask的字符是什么,而BERT不知道,我们可以用一个来表 示这个字符,并使输出和one-hot vector之间的交叉熵损失最小。
2025-04-07 18:28:19
421
原创 Transformer的加速方法--李宏毅机器学习笔记
Reformer核心思想:在标准 self-attention 中,每个 Query 都会对所有 Key 做加权平均(即点积后加 softmax),但实际上很多 attention score 很小,几乎没有贡献,这些值可以直接不计算。好复杂orz,简单图示如下,最后得到的M vector是通用的,算不同b时只需要套用就行。在 self-attention 中,计算开销最大的部分是 Query(Q)与所有 Key(K)之间的点积计算,因为这会形成一个大小为 N×N 的注意力矩阵,计算复杂度为O(N^2)。
2025-04-06 19:53:41
837
原创 Transformer模型及原理--李宏毅机器学习笔记
Transformer 是一种 Seq2Seq 模型,最初用于机器翻译,但其应用远超翻译领域。Seq2Seq模型的特点:输入输出均为序列,输出长度由模型自动决定,适合处理如语音识别、机器翻译等任务。应用场景包括语音识别、翻译、聊天机器人、问答系统、目标检测等。
2025-04-06 09:00:00
542
原创 自注意力机制(Self-Attention)--李宏毅机器学习笔记
但是随之而来的问题就是这个向量的长度和词汇数量一样多,比如一句话3个单词,apple是100,bag就得是010,单词越多,向量越长,问题越复杂。以自然语言处理NLP为例,词语转为嵌入向量,送入 Self-Attention 层,使用 Attention 机制建模词与词之间的关系,输出的是“考虑上下文之后”的向量,最终输出用于分类 / 生成 / 序列标注等任务。问题,以前的直觉就是使用 Fully-Connected Network(FCN)逐个处理向量,提取特征,但是这么做容易忽略上下文,导致出错。
2025-04-02 22:21:23
904
原创 GAN生成式对抗网络2--李宏毅机器学习笔记
GAN 的 Generator 训练完成后,我们需要判断它生成的图像到底“好不好”。:Discriminator和Generator需要“棋逢对手” ,否则可能无法获取有用的梯度;:梯度无法直接传导至离散输出(token),常需强化学习(如SeqGAN)配合。Generator 忽略某些真实分布中的子类别(如图中右边的星星);:早期的 GAN 论文几乎都是靠“放几张图让人看”,没有量化指标;:Generator 只生成一种样式的图像,缺乏多样性;表示分类器越“有信心”,图像更清晰,质量可能越高;
2025-03-29 18:25:54
873
原创 GAN生成对抗网络1--李宏毅机器学习笔记
或在 unconditional 情况下 Y=G(Z)Y = G(Z)Y=G(Z)以训练画图为例,只是训练 Generator 不够 → 难以衡量输出是否“像”如果强迫模型输出一个固定结果,反而会“平均”所有可能,导致输出模糊或不真实。循环训练:G、D 不断“进化”,如同捕食者与拟态动物的对抗演化。” Discriminator,让其认为生成图是“真”的。用 D 的输出作为“评分”,反向传播优化 G。输入图像,输出一个分数(越大代表越真实)用真实图像标记为 1,生成图像标记为 0。
2025-03-27 18:19:20
396
原创 卷积神经网络(CNN,Convolutional Neural Network)--李宏毅机器学习笔记
李老师主要介绍了两种”说法“,但实际上是一个意思。这里先概括性总结一遍防止后面不知道在说什么。
2025-03-26 02:36:35
658
原创 分类Classification--李宏毅机器学习笔记
分类问题的目标是:给定一个输入(特征向量),输出它所属的类别(label)。虽然分类输出的是类别,但其实现方式可以借鉴回归(Regression)的思想。打个比方,如下图所示,输入x后输出y,我们需要根据输出的数字判断它是那一类,自然而然的想法就是用数字对应类,这种方法在类之间有关系时可行,但是如果类之间没有什么关系,比如动物图像识别时就有问题。
2025-03-25 18:11:55
658
原创 批归一化Batch Normalization(BN)--李宏毅机器学习笔记
是一种加速神经网络训练、稳定优化过程的技术。核心思想是对每一层的输入特征进行归一化处理,使它们分布在固定范围内(均值为 0,方差为 1),从而,提升训练效率。
2025-03-24 23:16:08
344
原创 自适应学习率--李宏毅机器学习笔记
可能因为前面的小g很小,反应迟钝,一下子无法变大,让学习率没有及时减小,梯度又大,导致无法“刹车”,一下子跨出一大步飞到不知道哪去了。走到终点的时候突然爆炸,原因:在平坦的谷底积累太多小g,导致σ变小,学习率变大,虽然会修正回来但是浪费时间。如果学习率很小,在梯度大的地方没问题,到了梯度g本身很小的地方,乘以学习率后就更小,移动的就更慢了。示例说明,即使梯度不小,loss 也可能停止下降,尤其是在“山谷”两侧震荡时。总体思路是这样的,原来的是这样的,学习率固定。一开始用较小学习率,逐步增大,再慢慢减小。
2025-03-24 22:15:34
798
原创 优化失败的原因与措施--李宏毅机器学习笔记
指梯度为零的点,即 ∇L(θ) = 0这类点训练停滞,无法继续更新参数。三类 Critical Point:Local Minima:局部最小值(四周都比它大)Local Maxima:局部最大值(四周都比它小)Saddle Point(鞍点):部分方向是最小,部分方向是最大 —— 最常见的情况!如果走到了临界点, 绿色框里的就为0,能否继续下降让L更小取决于后面一项,严格来说只取决于H,有如下三种状态:全大于0,全小于0,有的大于有的小于0更直观的判断方式是用特征值,什么是特征值我差点忘了哈哈哈哈哈,考研
2025-03-23 20:52:22
302
原创 机器学习训练中的技巧--李宏毅机器学习笔记
若不小,可能是以下两个问题:模型太简单,函数集合太小,无法表达理想函数。解决方案:增加模型容量,如:增加输入特征维度使用更深层的神经网络使用更复杂的模型架构(如 Deep Learning)模型容量足够,但 Gradient Descent 卡在局部最优。判断方法:用浅层模型(如 SVM、线性模型)先试,获得 baseline。若更深模型反而 loss 更高,则可能是优化问题。经验总结:看到一个你从来没有做过的问题,也许你可以先跑一些比较小的,比较浅的network,或甚至用一些,不是 deep learn
2025-03-23 19:09:19
834
原创 机器学习概念--李宏毅机器学习笔记
此时我们将loss定义为θ的函数L(θ)这个要问的就是这个θ如果它是某一组数值的话会有多不好或有多好通常的流程:1、先给定某一组w,b,c的值假设你知道 w,b,c的值是多少。2、然后把一种Feature x带进去然后看看你估测出来的y是多少。3、再计算一下跟真实的Label之间的差距你得到一个e。4、把所有的误差通通加起来你就得到你的Loss。回顾优化现在的 θ是一个很长的向量我们把它表示成θ1,θ2,θ3 (数字下标)
2025-03-23 01:49:04
856
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人