自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(213)
  • 收藏
  • 关注

原创 Class62 优化算法

也就是说,取集合中的两点𝑥和 𝑦,连成一条线段,这条线段的每一点都在集合𝐶内。在给定的目标函数下,寻找一组参数,使目标函数的值达到最优(最大化或最小化)每次更新用全部数据计算梯度,每次更新只用一个样本。2.二阶矩(平方的均值,RMSProp 部分)找到能 最小化目标函数(损失函数) 的参数。1.一阶矩(均值,momentum 部分)不仅仅看当前的梯度,还要“记住”之前的。每次更新参数,只用一个样本来计算梯度。”,像物体运动中的冲量一样,继续往前。类似动量法,对梯度做指数加权平均。小批量随机梯度下降是介

2025-09-19 17:55:50 337

原创 Class61 代码实现2

【代码】Class61 代码实现2。

2025-09-19 15:52:15 138

原创 Class61 代码实现1

【代码】Class61 代码实现1。

2025-09-19 14:09:15 95

原创 Class61 Bert

(Word2Vec, GloVe):将词映射为稠密向量,但静态词向量不能区分上下文。例如,“bank” 在 “river bank” 和 “bank account” 中的意义不同,但表示相同。输入:(A: “I went to the store.”, B: “The sky is blue.”) → False。输入:(A: “I went to the store.”, B: “I bought milk.”) → True。:适合处理序列,但难以并行化,训练长序列时梯度消失问题严重。

2025-09-19 11:59:01 300

原创 Class61 代码实现

【代码】Class61 代码实现。

2025-09-17 21:14:23 182

原创 Class60 代码实现

【代码】Class60 代码实现。

2025-09-17 17:55:57 139

原创 Class60 Transformer

和编码器的自注意力类似,但加了 mask,保证预测第 i 个词时只能看到前 i-1 个词,防止“偷看未来”Query 来自解码器,Key 和 Value 来自编码器 → 让解码器在生成时关注输入序列。输入目标序列(比如法语句子,带位置信息) → 在编码器输出的帮助下生成最终翻译。1、归一化范围:同一隐藏维度,跨 batch + 跨时间(序列)捕捉信息(例如语法关系、语义关系、短距离依赖、长距离依赖)。”,在不同子空间里并行计算注意力,再拼接起来。词向量 + 位置编码 = 位置敏感的输入向量。

2025-09-17 17:02:29 932

原创 Class59 代码实现

【代码】Class59 代码实现。

2025-09-17 15:00:56 120

原创 Class59 自注意力

研究发现语言中“相对顺序”更重要,比如“相隔两个词”往往比“绝对在第 10 个位置”更有意义,于是提出 相对位置编码,在计算注意力分数时直接引入位置信息。例如:第 10 个位置和第 20 个位置的编码差异在多个频率下表现出来,模型能“算出”两者之间的相对距离。,才能让模型知道“单词在句子中的先后关系”,这就是位置编码的作用。这样,模型既有词本身的语义信息,又有该词的位置信息。,它让每个位置的表示,可以和序列中其他所有。这样,每个位置的输出都是对所有位置的加权和。(1) 生成 Q, K, V。

2025-09-17 12:04:09 344

原创 Class58 代码实现

【代码】Class58 代码实现。

2025-09-16 21:47:50 219

原创 Class59 使用注意力机制的seq2seq

和传统 Seq2Seq 最大的区别是:在解码时,每一步都通过 Attention 来动态地利用输入句子的所有信息,而不是只依赖一个固定向量。解码器在生成每个词时,不仅依赖一个固定向量,而是动态地从编码器的所有隐藏状态中,挑选相关的信息。如果输入句子很长(比如 50 个词),所有信息必须。2.编码器(Encoder 部分)4.解码器(Decoder 部分),负担过重会导致长句子翻译。编码器必须记住整个序列的。进一个向量,容易导致。

2025-09-16 20:33:31 136

原创 Class58 代码实现

【代码】Class58 代码实现。

2025-09-16 20:12:33 112

原创 Class58 注意力分数

Query向量与Keys的每一个向量通过注意力打分函数a计算。表示“在生成某个输出时,输入的每个部分的重要性”。𝑉:输入序列每个位置实际携带的信息,用于加权输出。注意力分数本身是“原始匹配值”,还需要归一化成。这里用了softmax,保证所有权重和为1。向量的维度,缩放可以防止维度大导致的。适合 RNN 结构的注意力机制。权重越大,表示模型越关注该输入。Query与每个Key做匹配。𝐾:表示输入序列每个位置。得到每个Key的注意力权重。𝑄:表示当前输出位置。

2025-09-16 17:30:26 254

原创 Class57 代码实现

2025-09-16 17:00:54 452

原创 Class57 注意力机制

不要把所有信息压缩在一个向量里,而是让模型在需要时“而如果想要选书,而书和其他三个是属于同一类的,所以是。明显的可以看出,咖啡杯喝其他是完全不一样的,所以是。“非参”指的是在计算注意力分数时。,只依赖输入向量之间的相似性。”关注输入序列的不同部分。

2025-09-16 14:17:47 157

原创 Class56 束搜索

例如:在词表 = {A, B, C, D}中,每一步概率A: 0.6,B: 0.4,C: 0.3,D: 0.2。从上面两个图中可以看出来,即使每次都选择最大的值,最后得出来的结果也未必是最大的。排序取前 2:[A,A,A] = 0.216 [A,A,B] = 0.144。更好的结果: 0.5 x 0.3 x 0.6 x 0.6 = 0.054。排序取前 2:[A, A] = 0.36,[A, B] = 0.24。对所有可能的序列,计算他的概率,然后选取最好的那个。只保留前 2:候选 = A, B。

2025-09-13 16:27:46 258

原创 Class55 代码实现

【代码】Class55 代码实现。

2025-09-13 16:07:16 229

原创 Class55 Seq2seq

编码器是没有输出的RNN,编码器最后时间步的隐状态用作解码器的初始隐状态。目标是输入一个序列(比如英文句子),输出一个序列(比如对应的中文翻译)它的核心结构是编码器(Encoder) + 解码器(Decoder)和标签比对,匹配了 4 个(A、B、C、D),总共 5 个。在标签里的有 3 个:A B, B C, C D。预测的 2-gram: 𝐴𝐵,𝐵𝐵,𝐵𝐶,𝐶𝐷。预测的 3-gram: 𝐴𝐵𝐵,𝐵𝐵𝐶,𝐵𝐶𝐷。预测的 1-gram: 𝐴,𝐵,𝐵,𝐶,𝐷。预测的

2025-09-13 11:28:25 294

原创 Class54 代码实现

【代码】Class54 代码实现。

2025-09-12 20:06:13 97

原创 Class54 编码器-解码器

接收输入序列,把它压缩成一个固定长度的上下文向量,提取输入的语义信息。接收这个上下文向量,根据它生成输出序列。编码器:将输入编程成中间表达形式。解码器:将中间表示解码成输出。(seq2seq)建模架构。编码器:将文本表示成向量。解码器:向量表示成输出。编码器-解码器是一种。

2025-09-12 19:53:38 153

原创 Class53 代码实现

【代码】Class53 代码实现。

2025-09-12 19:41:49 113

原创 Class52 双向循环神经网络

同时利用过去(从左到右)和未来(从右到左)的信息。

2025-09-12 17:50:41 178

原创 Class51 深度循环神经网络

深度RNN的关键是纵向堆叠多个循环层,让信息不仅沿着时间传播,还能在不同的抽象层级流动。在第𝑙层(第 𝑙=1,…

2025-09-12 17:07:16 170

原创 Class50 LSTM

LSTM是1997年提出的一种特殊RNN结构,通过门控机制来控制信息的保存和遗忘,从而解决长距离依赖问题。最终的存储结果,由旧记忆𝑐𝑡−1和筛选后的候选记忆组合而成。将遗忘门和输入门合并成一个更新门,结构更简单,参数更少。隐藏状态 ℎ𝑡是在时间步𝑡时,神经网络的“对外输出”来自当前输入和历史状态的“潜在记忆”,是原材料。参数更多,表达能力更强,但训练速度较慢。(比如分类、预测下一个词)看作是“新输入的草稿”,而。实际应用中,两者效果接近。决定遗忘多少过去的信息。决定最终输出多少信息。

2025-09-12 14:54:02 277

原创 Class49代码实现

【代码】Class49代码实现。

2025-09-11 20:45:43 130

原创 Class48代码实现

【代码】Class48代码实现。

2025-09-11 20:44:45 135

原创 Class48 GRU

想象你在写一句话时,前一句话的某些信息对当前词没用,你就“重置”掉它;更新门类似“门闩”,决定当前隐藏状态是更“偏过去”还是更“偏现在”重置门帮助 GRU 在需要时忘掉历史,专注当前输入。例如图中只有第一只猫比较重要,当然老鼠也很重要。作用:生成新的候选状态 ℎ~𝑡,准备更新隐藏状态。候选状态是 “当前输入 + 部分历史记忆的混合”让 GRU 能记住长期信息,也能快速吸收新信息。作用:决定要“忘掉”多少过去的隐藏状态信息。作用:控制新信息与历史信息的融合。作用:融合历史信息和新候选状态。

2025-09-11 19:25:16 211

原创 Class47代码实现

【代码】Class47代码实现。

2025-09-11 17:37:38 115

原创 Class46代码实现

1f.1fstr。

2025-09-11 17:36:24 140

原创 Class45代码实现

【代码】Class代码实现。

2025-08-27 16:26:15 143

原创 Class45循环神经网络RNN

梯度裁剪是一种控制梯度大小的方法,主要用于训练深度神经网络时,防止。(如文本、语音、时间序列)长度可变,且前后元素之间存在依赖关系。(如全连接网络、卷积网络)处理输入是固定大小的向量,而。潜变量自回归模型中,使用潜变量ht总结过去信息。RNN的核心思想:对序列数据进行建模,通过。”,用于当前时刻的预测。

2025-08-27 16:19:41 202

原创 Class44语言模型

语言模型是自然语言处理(NLP)中的核心基础技术之一,它的主要任务是对语言序列进行建模,估计一个词序列出现的概率,或者预测下一个最有可能出现的词。

2025-08-27 13:43:06 185

原创 Class43代码实现

【代码】Class42代码。

2025-08-26 20:26:44 88

原创 Class42代码实现

【代码】Class41代码实现。

2025-08-26 17:12:45 135

原创 Class42时序模型

时序模型是用于处理时间序列数据的模型,主要目标是从时间相关的数据中提取规律,用于分析、预测、异常检测、控制或生成序列。它们广泛应用于金融、气象、交通、语音识别、自然语言处理等领域。在时间t观察到xt,那么得到T个不独立的随机变量(x1,…2.大地震发生后,很可能会有几次较小的余震。1.电影的评价随着时间的变化而变化。每一个点,都跟之前所有的点相关。

2025-08-23 18:51:09 290

原创 Class41代码实现

【代码】Class41代码实现。

2025-08-23 17:58:33 90

原创 Class41样式迁移

选择多层卷积层(如 conv1_1, conv2_1, conv3_1, conv4_1, conv5_1)提取样式特征。网络的低层卷积层提取纹理和边缘等低层特征(与样式密切相关),高层卷积层提取物体轮廓和语义信息(与内容相关)。使用 Gram 矩阵(Gram Matrix) 表示样式,它反映了各特征图之间的相关性(即颜色和纹理分布)。通过最小化生成图像与样式图像在这些 Gram 矩阵上的差异,实现样式迁移。通过比较生成图像与内容图像的这一层特征差异,保持生成图像的主要结构。

2025-08-23 13:36:32 315

原创 Class40代码实现

【代码】Class40代码实现。

2025-08-22 22:07:24 108

原创 Class40全连接神经网络FCN

FCN 是一种专门用于 图像语义分割 的卷积神经网络。可以接受 任意大小的输入图像,输出与输入大小对应的 像素级预测。没有全连接层,所有层都是卷积层或反卷积(上采样)层。:输入原图 → 输出分割图,整个网络可联合优化。:例如 VGG、ResNet,快速提升性能。输出的是每个像素属于某个类别的概率分布。:直接得到每个像素的类别。:因为没有全连接层。

2025-08-22 17:57:17 147

原创 Class38转置卷积

转置卷积,又称反卷积、反向卷积、反卷积层、但更严格说并非真正的“卷积的逆运算。

2025-08-22 14:08:22 127

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除