- 博客(5)
- 收藏
- 关注
原创 PatchTST
对于每一个单变量序列(已经通过转换从[L,M]->[M,L]),将长为L序列切成N块,每块长度P(图1)。另外一个要提到的点是Position Embedding,论文用的是learnable的PE,用nn.init.uniform_(W_pos, -0.02, 0.02)来初始化。因为每个维度的信息是有限的,所以没有那么容易拟合。不同Channel的数据有不同的规律,如果直接mix后投射到一个空间上会不太好学。如果一个channel的数据有噪声,也容易影响所有channel,分开则没有这样的影响。
2023-12-11 06:30:00
1115
2
原创 TimesNet
本文重点研究时间变化建模,为了解决一维时间序列在表示能力方面的局限性,我们将一维时间序列转换为一组基于多个周期的二维张量,将时间变化分析扩展到二维空间,使得2D变化很容易被2D核建模。
2023-11-22 10:35:55
1235
原创 Autoformer
编码器部分的输入是过去的 I 个时间步长 Xen [I/2,d] ,Autoformer 解码器的输入同时包含季节性部分 Xdes [I/2+O,d]和趋势周期部分 Xdet [I/2+O,d]。基于Transformer的时间序列预测模型,通过自注意力机制(self-attention)来捕捉时刻间的依赖,在时序预测上取得了一些进展。输入序列X[L,d],L为序列长度,d为每一个时间步的维度。Xt[L,d],Xs[L,d]分别表示季节部分和提取的趋势周期部分,这是SeriesDecomp的内部实现模块。
2023-11-10 16:33:40
175
1
原创 ConvNeXt网络
在某种程度上,我们的观察结果令人惊讶,而我们的 ConvNeXt 模型本身并不是全新的——在过去十年中,许多设计选择都是单独检查的,但不是集体的。在高层次上,ResNeXt 的指导原则是“使用更多的组,扩展宽度”。Fewer activation functions:Transformer 和 ResNet 块之间的一个小区别是 Transformer 的激活函数更少,如图 4 所示,我们从残差块中删除了所有 GELU 层,除了两个 1 ⇥ 1 层之间的层,复制了 Transformer 块的样式。
2023-11-03 20:21:42
167
原创 VIT讲解
在原论文中,作者说参考BERT,在刚刚得到的一堆tokens中插入一个专门用于分类的[class]token,这个[class] token是一个可训练的参数,数据格式和其他token一样都是一个向量,就是一个长度为768的向量,与之前从图片中生成的tokens拼接在一起,Cat([1, 768], [196, 768]) -> [197, 768]。在本文中我们展示了对CNN的这种依赖是不必要的,直接应用于图像块序列的纯Transformer可以在图像分类任务中表现出色。(感官输入)的选择倾向。
2023-10-30 21:21:02
241
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人