正在输入中。-优快云博客

原创 Beam Search 和Sampling方法的时间复杂度对比

**Beam Search** 的时间复杂度为 \(O(B \cdot T \cdot V)\)，其中 \(B\) 是 Beam 的宽度。需要注意的是，某些采样方法可能会对候选词进行排序（如 Top-k 采样、Top-p 采样），这会增加一些额外的开销，但相对于整个生成过程的复杂度，这部分通常较小，可以认为时间复杂度仍然是 \(O(T \cdot V)\)。- **采样方法** 的时间复杂度为 \(O(T \cdot V)\)，相对较低，因为每一步只进行一次采样或少量的排序操作。

2024-07-24 16:11:35 490

原创 Batch Normalization在推理时如何作用？

Batch Normalization（批归一化）是一种在深度学习中广泛使用的正则化技术，其主要目的是提高训练速度和稳定性。

2024-07-15 23:45:16 1288

原创 Transformer中Layer Normalization及其在推理时如何作用？

在Transformer中，Layer Normalization是一种正则化技术，旨在提高模型的训练速度和稳定性。

2024-07-15 23:37:31 1011

原创 #线性代数：两个随机变量相乘的方差

假设X和Y是两个随机变量，我们需要求XY的方差。VarXE[(X−EX2E[(X2−2XEXEX2EX2−EX2根据方差的定义，方差是平方值的期望减去期望值的平方，即VarXYE[(XY2−EXY2EXYCovXYE[(X−EX])Y−EY])]EXY−XEY−EXYEXEY]]EXY−EXEY−EXEYEXEYEXY。

2024-07-15 00:20:20 2953

原创 Transformer在计算softmax之前为什么要除以维度的开方

在计算注意力时，特别是在使用缩放点积注意力（Scaled Dot-Product Attention）时，确实会用到除以维度的平方根。本文详细这一步操作的原因和意义。假设我们有查询向量 QQQ、键向量 KKK 和值向量 VVV，它们的维度为 dkd_kdk。注意力计算的公式为：Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q K^T}{\sqrt{d_k}}\right) VAt

2024-07-14 23:55:03 707

原创线性代数：多个随机变量相加的方差

独立情况下VarX1X2Xn∑i1nVarXiVarX1X2Xn∑i1nVarXi不独立情况下VarX1X2Xn∑i1nVarXi∑i≠j2CovXiXjVarX1X2Xn∑i1nVarXi∑ij2CovXiXj。

2024-07-14 22:58:05 5139

原创 Transformer中的权重共享

权重共享是Transformer模型设计中的一种重要技术，通过合理应用可以显著提高模型的性能和训练效率。

2024-07-14 17:32:32 1636

原创 Transformer中Decoder的计算过程及各部分维度变化

在Transformer模型中，解码器的计算过程涉及多个步骤，主要包括自注意力机制、编码器-解码器注意力和前馈神经网络。

2024-07-14 17:03:54 1262

原创 Transformer: Layer Normalization (LN) 和 Instance Normalization (IN)

Layer Normalization 和 Instance Normalization 是深度学习中两种重要的归一化技术，它们分别在不同的任务和场景中发挥重要作用。理解和正确使用这两种归一化方法，可以显著提升模型的性能和收敛速度。

2024-07-13 16:46:30 865

原创机器学习：LayerNorm和BatchNorm的区别

LayerNorm（Layer Normalization）和BatchNorm（Batch Normalization）是深度学习中常用的正则化技术，它们的作用是在神经网络训练过程中提升模型的收敛速度和稳定性，从而加快训练并提高模型的泛化能力。

2024-07-12 21:09:48 3573 1

原创 Transformer中Encoder的计算过程及各部分维度变化

Transformer模型中的维度变化主要发生在以下几个部分：输入嵌入（embedding）、多头注意力机制（Multi-Head Attention）、前馈神经网络（Feed-Forward Neural Network）以及残差连接和层归一化（Residual Connection and Layer Normalization）。

2024-07-12 20:14:51 1186

原创 Transformer多头注意力的计算量和单头注意力计算量比较

多头注意力机制（Multi-Head Attention）在Transformer中引入了多个并行的注意力头，每个注意力头可以学习到不同的特征表示。尽管这种机制增强了模型的表达能力，但也增加了一些计算量。下面详细比较一下多头注意力和单头注意力的计算量。

2024-07-12 19:24:26 1717 1

原创 mapminmap函数对行归一化

mapminmap函数对行归一化

2021-05-10 17:17:55 404

原创验证集的loss与Acc走势问题

验证集的loss与Acc走势问题发现验证集的loss上升，而Acc却也在上升后期模型预测走向极端，少量错误的样本使loss变大，而准确率没有太大的影响，甚至升高。https://zhuanlan.zhihu.com/p/163676138

2021-05-05 15:49:07 2219 2

原创 StratifiedKFold

StratifiedKFold设置shuffle=True的情况虽然会随机划分仍然保持每类中的比例而且返回的索引仍然是从小到大的因为训练的时候需要再次shuffle

2021-05-05 15:48:40 275

原创 pytorch训练过程内存泄漏

pytorch训练过程中的内存泄漏训练到一半总是提示内存已满，bug new Ram注意自动求梯度的值特别是loss，不能以张量的形式随便参与运算1.loss_list.append(loss)

2021-05-04 22:28:31 824

原创 python中导入模块注意

python中导入模块注意模块导入新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入模块导入python中导入模块时，都会将模块中的内容执行一遍，所以模块中的非函数部分的代码，如果不希望在导入的时候执行，而希望在作为主函数

2020-09-16 18:40:50 312

Zzzzyc_的博客

原创 Beam Search 和Sampling方法的时间复杂度对比

原创 Batch Normalization在推理时如何作用？

原创 Transformer中Layer Normalization及其在推理时如何作用？

原创 #线性代数：两个随机变量相乘的方差

原创 Transformer在计算softmax之前为什么要除以维度的开方

原创线性代数：多个随机变量相加的方差

原创 Transformer中的权重共享

原创 Transformer中Decoder的计算过程及各部分维度变化

原创 Transformer: Layer Normalization (LN) 和 Instance Normalization (IN)

原创机器学习：LayerNorm和BatchNorm的区别

原创 Transformer中Encoder的计算过程及各部分维度变化

原创 Transformer多头注意力的计算量和单头注意力计算量比较

原创 mapminmap函数对行归一化

原创验证集的loss与Acc走势问题

原创 StratifiedKFold

原创 pytorch训练过程内存泄漏

原创 python中导入模块注意

原创 python中二维数组的赋值问题

原创 A simp task WOJ

原创 python中使用list的删除需要注意

原创武汉大学计算机学院2019年夏令营考核回忆版

原创 POJ4150上机

原创 JS属性的访问

原创两个对象所指的不一样

jieba词库+百度词库 (2).zip

空空如也