叼根棒棒糖闯天下！-优快云博客

原创 BtachNorm和LayerNorm

我们用batchsize ,seqlen，encin（批次大小，时间序列长度，特征数）的数据格式来解释一下（128，96，7）

2025-03-08 15:49:20 330

原创 SELF-SUPERVISED CONTRASTIVE LEARNING FOR LONG-TERM FORECASTING（ICLR2024)

Junwoo Park, Daehoon Gwak, Jaegul Choo, Edward ChoiKim Jaechul Graduate School of AI, KAIST, Daejeon, Republic of Korea

2025-02-27 19:42:10 827

原创 A Comprehensive Survey of Deep Learning for Multivariate Time Series Forecasting: A Channel Strategy

独立的处理每个通道，不考虑他们之间任何潜在的的相互关系和相互关联。每个通道 都被处理为独立的输入，不使用任何共享信息或依赖项。此外，CI策略提供了灵活性，因为添加新渠道不需要对模型架构进行更改，使其能够无缝适应不断发展的数据集。将所有的通道考虑为统一的整体，假设他们之间相互依赖且相互关联。在预测过程中将它们视为一个统一的整体。

2025-02-23 16:05:48 626

原创服务器激活环境

正常连接到服务器后，需要激活一下整个服务器的环境。

2024-08-06 19:28:27 159

原创 15种方法序列预测总结(包含代码）

https://cloud.tencent.com/developer/article/2414123

2024-07-10 15:54:51 185

原创 MLP Multilayer Perceptron(多层感知机）

a. 不使用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。b. 使用激活函数，能够给神经元引入非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以利用到更多的非线性模型中。

2024-07-09 20:50:00 403

在每一步，Draft阶段会生成5个token，绿色的是目标模型确认的token，红色是目标模型第一个拒绝的token，蓝色是经过修正的token（注意，第一个被拒绝的token之后的所有token都将被丢弃）。在大模型的时代，随着模型参数量增加，生成token所需的访存时间大大增加，传统的串行式的自回归生成方法不再适用。由于top-k采样的k值是固定的，不同的概率分布可能会带来不同的问题。Temperature的取值一般在0-1之间，值越大，概率分布越平缓，生成的序列更具多样性，适合于需要创造性的任务；

2024-07-08 20:49:49 869

原创从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)（3）（注意力机制）

这种情况下，这组词向量就组成了一个数据矩阵，假如输入的是一个t行的矩阵，输出的也是一个t行的矩阵，输出的列数，也就是token维度的个数，我们把token变成词向量，就像把大象变成石头，方便后面的操作。Q和K可以看成，Q向量的每一行和K向量的每一行点积后的结果得到一个新的矩阵，如果用代数表达的话，就是Q1,: * KT;,2=a12，Q的第一行的所有列，和K的转置的第二列的所有行相乘。假设X1,X2，XN这个向量，他是一个多元正态分布，这里头的X的每一项都遵循正态分布，而且是标准正态分布。

2024-06-24 16:19:19 1133

原创从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)（2）

一个神经网络的隐藏层，就是在进行一次空间变换。潜空间就是一个纯粹的语义空间，一个token被嵌入后，就变成了一个多维的向量，向量的每一个维度，都代表了一个独立的语义。维度都是一个一个的语义，如果换成图片的话，每一个维度都是一个一个的RGB通道。一个token完整的语义，也必须是把潜空间上，所有维度的数据都放在一起，才有意义。编码就是先把一个文本里的token，都先变成独热码，然后进行降维，这个过相当于把输入的一句话根据语义投射到潜空间。1的卷积核可以把，图像里的所有的通道合成一个通道。

2024-06-24 09:47:14 364

原创从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)（1）

1、发展过程理解transformer的关键是这个编码和解码的结构，那么这个码是什么码呢？这就要回到最基本的内容了。人工智能最典型的场景，一个是人工识别，一个是自然语言处理。神经网络靠的是CNN，最先在图像识别领域爆发出来的。在NLP领域，也有一个和CNN对应的模型，是RNN（循环神经网络）。独热编码是对应的语义空间的维度太高了。信息密度过于稀疏。它可以很容易的表示出苹果和香蕉的组合语义。苹果是001，香蕉和010。苹果和香蕉是011.但是独热码的问题是所有的token都是独立的维度。所有的token

2024-06-23 18:50:16 834

原创 Python中self，下划线的作用

除此之外，类的方法(函数）和普通函数没啥区别，你既可以用默认参数、可变参数或者关键字参数（args是可变参数，args接收的是一个tuple，kw是关键字参数，kw接收的是一个dict）。（1）__init __方法的第一参数永远是self，表示创建的类实例本身，因此，在__init __方法内部，就可以把各种属性绑定到self，因为self就指向创建的实例本身。定义的变量是特殊变量，前后都有两个下划线的话，是特殊变量，但不是私有变量，不同的构造函数是可以直接访问的。在代码中还有很多下划线的变量。

2024-06-20 17:19:20 331

原创服务器下环境的配置

之后创建属于自己的虚拟环境，激活虚拟环境。之后的配置和在本地的配置环境的方法一样。

2024-06-19 10:36:17 309

原创最小二乘法得出w,b的表达式[周志华老师西瓜书]

得到对其w,b的求偏导的式子。得出w,b的表达式。求出w,b的值，令其值最小。分别对其w,b求偏导。然后推出w,b的表达式。

2024-06-06 17:19:06 211

原创比较检验[周志华老师西瓜书]

这里的公式，每个x1,x2,x3,x4都表示一个属性，如西瓜的颜色，瓜蒂等。若用离散的东西处理连续的信号，需要先把离散的东西连续化。线性模型试图学得一个通过属性的线性组合来进行预测的函数。若有序（Order)，则连续化；否则，转化为k维向量。x2]中用分号表示，则是列向量。如果用[x1, x2]中用逗号表示，则是行向量。可以把高当成1，中看成0.5，低看成0.为学习器性能比较提供最要依据。机器学习找的都是概率最优的。

2024-06-06 16:21:20 657

原创性能度量[周志华老师西瓜书]

给你一堆西瓜，你查出来10个有好的，你给出的10个中，有几个是好的，这就是查准率。这里前面加上个系数没有影响。一般都加上1/2，这样在求导后，2可以直接约去。一堆西瓜中有20个是好的，但是你只给出了10个。你的查全率就是50%。什么样的模型是“好”的，不仅取决于算法和数据，还取决与任务需求。性能度量是衡量泛华模型能力的评价标准，反映了任务需求。这样可以使得较小的值不被忽视掉。回归任务常用均方误差。

2024-06-06 10:22:58 711

原创机器学习评估方法

算法参数选定后，要用 “训练集+验证集” 重新训练最终模型。训练集中专门留出来调参数的部分。看参数怎么设置才是好的。轮转来当作测试集，这样每一个测试集都被测试过了。调参数的过程应该从训练集中来，而不是测试集中。亦称“有放回采样”、“可重复采样”。测试集和训练集应该"互斥"

2024-06-05 21:27:56 229

原创监督学习和无监督学习

无监督学习是你知道数据的例子，不知道每个例子对应的结果。这样是无监督学习，又称作无导师学习。但是你可以通过属性进行分类，例如根据产地，颜色进行分类。监督学习又称有导师学习，是已经把结果告诉你了，例如一堆数据集是西瓜，有瓜迪，纹理，颜色，然后再把结果告诉你。每个数据对应的是好的，还是坏的。机器学习能够知道经验误差，努力根据已有数据找出泛化误差。但也不是这两个东西越正确越好，因为会出现过拟合现象。指学习到的模型，处理新的问题的能力。处理新问题的能力越强，泛华能力越强。在训练集上的误差，亦称“训练误差”。

2024-06-05 15:26:32 119

原创 MAE和MSE

MAE存在一个严重的问题（特别是对于神经网络）：更新的梯度始终相同，也就是说，即使对于很小的损失值，梯度也很大。而MSE在这种情况下的表现就很好，即便使用固定的学习率也可以有效收敛。总的来说，处理异常点时，MAE损失函数更稳定，但它的导数不连续，因此求解效率较低。，也可以看做L1损失，是一种用于回归模型的常用损失函数。其只衡量了预测值误差的平均模长，而不考虑方向，取值范围也是从0到正无穷（如果考虑方向，则是残差/误差的总和——平均偏差（MBE））。它表示的是预测值与实际观测值之间差的平方的平均值的平方根。

2024-06-05 09:42:07 1307

qq_20466297的博客

原创 BtachNorm和LayerNorm

原创 SELF-SUPERVISED CONTRASTIVE LEARNING FOR LONG-TERM FORECASTING（ICLR2024)

原创 A Comprehensive Survey of Deep Learning for Multivariate Time Series Forecasting: A Channel Strategy

原创服务器激活环境

原创 15种方法序列预测总结(包含代码）

原创 MLP Multilayer Perceptron(多层感知机）

原创什么是自回归解码？

原创从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)（3）（注意力机制）

原创从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)（2）

原创从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)（1）

原创 Python中self，下划线的作用

原创服务器下环境的配置

原创最小二乘法得出w,b的表达式[周志华老师西瓜书]

原创比较检验[周志华老师西瓜书]

原创性能度量[周志华老师西瓜书]

原创机器学习评估方法

原创监督学习和无监督学习

原创 MAE和MSE

原创【无标题】

原创【无标题】

原创 windows 查看占用端口的进程并且杀死进程

原创 2021-09-16

空空如也

项目上云，遇到的一些问题

ON DUPLICATE KEY UPDATE demo

Mybaits的去掉多余的符号问题

前端vue axios请求问题

springboot项目问题

一个关于反省的问题。。

一个java技术，简单的java技术