Morning的呀-优快云博客

原创 Class62 优化算法

也就是说，取集合中的两点𝑥和 𝑦，连成一条线段，这条线段的每一点都在集合𝐶内。在给定的目标函数下，寻找一组参数，使目标函数的值达到最优（最大化或最小化）每次更新用全部数据计算梯度，每次更新只用一个样本。2.二阶矩（平方的均值，RMSProp 部分）找到能最小化目标函数（损失函数）的参数。1.一阶矩（均值，momentum 部分）不仅仅看当前的梯度，还要“记住”之前的。每次更新参数，只用一个样本来计算梯度。”，像物体运动中的冲量一样，继续往前。类似动量法，对梯度做指数加权平均。小批量随机梯度下降是介

2025-09-19 17:55:50 337

原创 Class61 代码实现2

【代码】Class61 代码实现2。

2025-09-19 15:52:15 138

原创 Class61 代码实现1

【代码】Class61 代码实现1。

2025-09-19 14:09:15 95

原创 Class61 Bert

（Word2Vec, GloVe）：将词映射为稠密向量，但静态词向量不能区分上下文。例如，“bank” 在 “river bank” 和 “bank account” 中的意义不同，但表示相同。输入：(A: “I went to the store.”, B: “The sky is blue.”) → False。输入：(A: “I went to the store.”, B: “I bought milk.”) → True。：适合处理序列，但难以并行化，训练长序列时梯度消失问题严重。

2025-09-19 11:59:01 300

原创 Class61 代码实现

【代码】Class61 代码实现。

2025-09-17 21:14:23 182

原创 Class60 代码实现

【代码】Class60 代码实现。

2025-09-17 17:55:57 139

原创 Class60 Transformer

和编码器的自注意力类似，但加了 mask，保证预测第 i 个词时只能看到前 i-1 个词，防止“偷看未来”Query 来自解码器，Key 和 Value 来自编码器 → 让解码器在生成时关注输入序列。输入目标序列（比如法语句子，带位置信息） → 在编码器输出的帮助下生成最终翻译。1、归一化范围：同一隐藏维度，跨 batch + 跨时间（序列）捕捉信息（例如语法关系、语义关系、短距离依赖、长距离依赖）。”，在不同子空间里并行计算注意力，再拼接起来。词向量 + 位置编码 = 位置敏感的输入向量。

2025-09-17 17:02:29 932

原创 Class59 代码实现

【代码】Class59 代码实现。

2025-09-17 15:00:56 120

原创 Class59 自注意力

研究发现语言中“相对顺序”更重要，比如“相隔两个词”往往比“绝对在第 10 个位置”更有意义，于是提出相对位置编码，在计算注意力分数时直接引入位置信息。例如：第 10 个位置和第 20 个位置的编码差异在多个频率下表现出来，模型能“算出”两者之间的相对距离。，才能让模型知道“单词在句子中的先后关系”，这就是位置编码的作用。这样，模型既有词本身的语义信息，又有该词的位置信息。，它让每个位置的表示，可以和序列中其他所有。这样，每个位置的输出都是对所有位置的加权和。(1) 生成 Q, K, V。

2025-09-17 12:04:09 344

原创 Class58 代码实现

【代码】Class58 代码实现。

2025-09-16 21:47:50 219

原创 Class59 使用注意力机制的seq2seq

和传统 Seq2Seq 最大的区别是：在解码时，每一步都通过 Attention 来动态地利用输入句子的所有信息，而不是只依赖一个固定向量。解码器在生成每个词时，不仅依赖一个固定向量，而是动态地从编码器的所有隐藏状态中，挑选相关的信息。如果输入句子很长（比如 50 个词），所有信息必须。2.编码器（Encoder 部分）4.解码器（Decoder 部分），负担过重会导致长句子翻译。编码器必须记住整个序列的。进一个向量，容易导致。

2025-09-16 20:33:31 136

原创 Class58 代码实现

【代码】Class58 代码实现。

2025-09-16 20:12:33 112

原创 Class58 注意力分数

Query向量与Keys的每一个向量通过注意力打分函数a计算。表示“在生成某个输出时，输入的每个部分的重要性”。𝑉：输入序列每个位置实际携带的信息，用于加权输出。注意力分数本身是“原始匹配值”，还需要归一化成。这里用了softmax，保证所有权重和为1。向量的维度，缩放可以防止维度大导致的。适合 RNN 结构的注意力机制。权重越大，表示模型越关注该输入。Query与每个Key做匹配。𝐾：表示输入序列每个位置。得到每个Key的注意力权重。𝑄：表示当前输出位置。

2025-09-16 17:30:26 254

原创 Class57 代码实现

2025-09-16 17:00:54 452

原创 Class57 注意力机制

不要把所有信息压缩在一个向量里，而是让模型在需要时“而如果想要选书，而书和其他三个是属于同一类的，所以是。明显的可以看出，咖啡杯喝其他是完全不一样的，所以是。“非参”指的是在计算注意力分数时。，只依赖输入向量之间的相似性。”关注输入序列的不同部分。

2025-09-16 14:17:47 157

原创 Class56 束搜索

例如：在词表 = {A, B, C, D}中，每一步概率A: 0.6，B: 0.4，C: 0.3，D: 0.2。从上面两个图中可以看出来，即使每次都选择最大的值，最后得出来的结果也未必是最大的。排序取前 2：[A,A,A] = 0.216 [A,A,B] = 0.144。更好的结果: 0.5 x 0.3 x 0.6 x 0.6 = 0.054。排序取前 2：[A, A] = 0.36，[A, B] = 0.24。对所有可能的序列，计算他的概率，然后选取最好的那个。只保留前 2：候选 = A, B。

2025-09-13 16:27:46 258

原创 Class55 代码实现

【代码】Class55 代码实现。

2025-09-13 16:07:16 229

原创 Class55 Seq2seq

编码器是没有输出的RNN，编码器最后时间步的隐状态用作解码器的初始隐状态。目标是输入一个序列（比如英文句子），输出一个序列（比如对应的中文翻译）它的核心结构是编码器（Encoder） + 解码器（Decoder）和标签比对，匹配了 4 个（A、B、C、D），总共 5 个。在标签里的有 3 个：A B, B C, C D。预测的 2-gram: 𝐴𝐵,𝐵𝐵,𝐵𝐶,𝐶𝐷。预测的 3-gram: 𝐴𝐵𝐵,𝐵𝐵𝐶,𝐵𝐶𝐷。预测的 1-gram: 𝐴,𝐵,𝐵,𝐶,𝐷。预测的

2025-09-13 11:28:25 294

原创 Class54 代码实现

【代码】Class54 代码实现。

2025-09-12 20:06:13 97

原创 Class54 编码器-解码器

接收输入序列，把它压缩成一个固定长度的上下文向量，提取输入的语义信息。接收这个上下文向量，根据它生成输出序列。编码器：将输入编程成中间表达形式。解码器：将中间表示解码成输出。（seq2seq）建模架构。编码器：将文本表示成向量。解码器：向量表示成输出。编码器-解码器是一种。

2025-09-12 19:53:38 153

原创 Class53 代码实现

【代码】Class53 代码实现。

2025-09-12 19:41:49 113

原创 Class52 双向循环神经网络

同时利用过去（从左到右）和未来（从右到左）的信息。

2025-09-12 17:50:41 178

原创 Class51 深度循环神经网络

深度RNN的关键是纵向堆叠多个循环层，让信息不仅沿着时间传播，还能在不同的抽象层级流动。在第𝑙层（第 𝑙=1,…

2025-09-12 17:07:16 170

原创 Class50 LSTM

LSTM是1997年提出的一种特殊RNN结构，通过门控机制来控制信息的保存和遗忘，从而解决长距离依赖问题。最终的存储结果，由旧记忆𝑐𝑡−1和筛选后的候选记忆组合而成。将遗忘门和输入门合并成一个更新门，结构更简单，参数更少。隐藏状态 ℎ𝑡是在时间步𝑡时，神经网络的“对外输出”来自当前输入和历史状态的“潜在记忆”，是原材料。参数更多，表达能力更强，但训练速度较慢。（比如分类、预测下一个词）看作是“新输入的草稿”，而。实际应用中，两者效果接近。决定遗忘多少过去的信息。决定最终输出多少信息。

2025-09-12 14:54:02 277

原创 Class49代码实现

【代码】Class49代码实现。

2025-09-11 20:45:43 130

原创 Class48代码实现

【代码】Class48代码实现。

2025-09-11 20:44:45 135

原创 Class48 GRU

想象你在写一句话时，前一句话的某些信息对当前词没用，你就“重置”掉它；更新门类似“门闩”，决定当前隐藏状态是更“偏过去”还是更“偏现在”重置门帮助 GRU 在需要时忘掉历史，专注当前输入。例如图中只有第一只猫比较重要，当然老鼠也很重要。作用：生成新的候选状态 ℎ~𝑡，准备更新隐藏状态。候选状态是 “当前输入 + 部分历史记忆的混合”让 GRU 能记住长期信息，也能快速吸收新信息。作用：决定要“忘掉”多少过去的隐藏状态信息。作用：控制新信息与历史信息的融合。作用：融合历史信息和新候选状态。

2025-09-11 19:25:16 211

原创 Class47代码实现

【代码】Class47代码实现。

2025-09-11 17:37:38 115

原创 Class46代码实现

1f.1fstr。

2025-09-11 17:36:24 140

原创 Class45代码实现

【代码】Class代码实现。

2025-08-27 16:26:15 143

原创 Class45循环神经网络RNN

梯度裁剪是一种控制梯度大小的方法，主要用于训练深度神经网络时，防止。（如文本、语音、时间序列）长度可变，且前后元素之间存在依赖关系。（如全连接网络、卷积网络）处理输入是固定大小的向量，而。潜变量自回归模型中，使用潜变量ht总结过去信息。RNN的核心思想：对序列数据进行建模，通过。”，用于当前时刻的预测。

2025-08-27 16:19:41 202

原创 Class44语言模型

语言模型是自然语言处理（NLP）中的核心基础技术之一，它的主要任务是对语言序列进行建模，估计一个词序列出现的概率，或者预测下一个最有可能出现的词。

2025-08-27 13:43:06 185

原创 Class43代码实现

【代码】Class42代码。

2025-08-26 20:26:44 88

原创 Class42代码实现

【代码】Class41代码实现。

2025-08-26 17:12:45 135

原创 Class42时序模型

时序模型是用于处理时间序列数据的模型，主要目标是从时间相关的数据中提取规律，用于分析、预测、异常检测、控制或生成序列。它们广泛应用于金融、气象、交通、语音识别、自然语言处理等领域。在时间t观察到xt,那么得到T个不独立的随机变量(x1,…2.大地震发生后，很可能会有几次较小的余震。1.电影的评价随着时间的变化而变化。每一个点，都跟之前所有的点相关。

2025-08-23 18:51:09 290

原创 Class41代码实现

【代码】Class41代码实现。

2025-08-23 17:58:33 90

原创 Class41样式迁移

选择多层卷积层（如 conv1_1, conv2_1, conv3_1, conv4_1, conv5_1）提取样式特征。网络的低层卷积层提取纹理和边缘等低层特征（与样式密切相关），高层卷积层提取物体轮廓和语义信息（与内容相关）。使用 Gram 矩阵（Gram Matrix）表示样式，它反映了各特征图之间的相关性（即颜色和纹理分布）。通过最小化生成图像与样式图像在这些 Gram 矩阵上的差异，实现样式迁移。通过比较生成图像与内容图像的这一层特征差异，保持生成图像的主要结构。

2025-08-23 13:36:32 315

原创 Class40代码实现

【代码】Class40代码实现。

2025-08-22 22:07:24 108

原创 Class40全连接神经网络FCN

FCN 是一种专门用于图像语义分割的卷积神经网络。可以接受任意大小的输入图像，输出与输入大小对应的像素级预测。没有全连接层，所有层都是卷积层或反卷积（上采样）层。：输入原图 → 输出分割图，整个网络可联合优化。：例如 VGG、ResNet，快速提升性能。输出的是每个像素属于某个类别的概率分布。：直接得到每个像素的类别。：因为没有全连接层。

2025-08-22 17:57:17 147

原创 Class38转置卷积

转置卷积，又称反卷积、反向卷积、反卷积层、但更严格说并非真正的“卷积的逆运算。

2025-08-22 14:08:22 127

空空如也

空空如也