- 博客(22)
- 收藏
- 关注
原创 BtachNorm和LayerNorm
我们用batchsize ,seqlen,encin(批次大小,时间序列长度,特征数)的数据格式来解释一下(128,96,7)
2025-03-08 15:49:20
330
原创 SELF-SUPERVISED CONTRASTIVE LEARNING FOR LONG-TERM FORECASTING(ICLR2024)
Junwoo Park, Daehoon Gwak, Jaegul Choo, Edward ChoiKim Jaechul Graduate School of AI, KAIST, Daejeon, Republic of Korea
2025-02-27 19:42:10
827
原创 A Comprehensive Survey of Deep Learning for Multivariate Time Series Forecasting: A Channel Strategy
独立的处理每个通道,不考虑他们之间任何潜在的的相互关系和相互关联。每个通道 都被处理为独立的输入,不使用任何共享信息或依赖项。此外,CI策略提供了灵活性,因为添加新渠道不需要对模型架构进行更改,使其能够无缝适应不断发展的数据集。将所有的通道考虑为统一的整体,假设他们之间相互依赖且相互关联。在预测过程中将它们视为一个统一的整体。
2025-02-23 16:05:48
626
原创 MLP Multilayer Perceptron(多层感知机)
a. 不使用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。b. 使用激活函数,能够给神经元引入非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以利用到更多的非线性模型中。
2024-07-09 20:50:00
403
原创 什么是自回归解码?
在每一步,Draft阶段会生成5个token,绿色的是目标模型确认的token,红色是目标模型第一个拒绝的token,蓝色是经过修正的token(注意,第一个被拒绝的token之后的所有token都将被丢弃)。在大模型的时代,随着模型参数量增加,生成token所需的访存时间大大增加,传统的串行式的自回归生成方法不再适用。由于top-k采样的k值是固定的,不同的概率分布可能会带来不同的问题。Temperature的取值一般在0-1之间,值越大,概率分布越平缓,生成的序列更具多样性,适合于需要创造性的任务;
2024-07-08 20:49:49
869
原创 从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)(3)(注意力机制)
这种情况下,这组词向量就组成了一个数据矩阵,假如输入的是一个t行的矩阵,输出的也是一个t行的矩阵,输出的列数,也就是token维度的个数,我们把token变成词向量,就像把大象变成石头,方便后面的操作。Q和K可以看成,Q向量的每一行和K向量的每一行点积后的结果得到一个新的矩阵,如果用代数表达的话,就是Q1,: * KT;,2=a12,Q的第一行的所有列,和K的转置的第二列的所有行相乘。假设X1,X2,XN这个向量,他是一个多元正态分布,这里头的X的每一项都遵循正态分布,而且是标准正态分布。
2024-06-24 16:19:19
1133
原创 从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)(2)
一个神经网络的隐藏层,就是在进行一次空间变换。潜空间就是一个纯粹的语义空间,一个token被嵌入后,就变成了一个多维的向量,向量的每一个维度,都代表了一个独立的语义。维度都是一个一个的语义,如果换成图片的话,每一个维度都是一个一个的RGB通道。一个token完整的语义,也必须是把潜空间上,所有维度的数据都放在一起,才有意义。编码就是先把一个文本里的token,都先变成独热码,然后进行降维,这个过相当于把输入的一句话根据语义投射到潜空间。1的卷积核可以把,图像里的所有的通道合成一个通道。
2024-06-24 09:47:14
364
原创 从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)(1)
1、发展过程理解transformer的关键是这个编码和解码的结构,那么这个码 是什么码呢?这就要回到最基本的内容了。人工智能最典型的场景,一个是人工识别,一个是自然语言处理。神经网络靠的是CNN,最先在图像识别领域爆发出来的。在NLP领域,也有一个和CNN对应的模型,是RNN(循环神经网络)。独热编码是对应的语义空间的维度太高了。信息密度过于稀疏。它可以很容易的表示出苹果和香蕉的组合语义。苹果是001,香蕉和010。苹果和香蕉是011.但是独热码的问题是所有的token都是独立的维度。所有的token
2024-06-23 18:50:16
834
原创 Python中self,下划线的作用
除此之外,类的方法(函数)和普通函数没啥区别,你既可以用默认参数、可变参数或者关键字参数(args是可变参数,args接收的是一个tuple,kw是关键字参数,kw接收的是一个dict)。(1)__init __方法的第一参数永远是self,表示创建的类实例本身,因此,在__init __方法内部,就可以把各种属性绑定到self,因为self就指向创建的实例本身。定义的变量是特殊变量,前后都有两个下划线的话,是特殊变量,但不是私有变量,不同的构造函数是可以直接访问的。在代码中还有很多下划线的变量。
2024-06-20 17:19:20
331
原创 最小二乘法得出w,b的表达式[周志华老师西瓜书]
得到对其w,b的求偏导的式子。得出w,b的表达式。求出w,b的值,令其值最小。分别对其w,b求偏导。然后推出w,b的表达式。
2024-06-06 17:19:06
211
原创 比较检验[周志华老师西瓜书]
这里的公式,每个x1,x2,x3,x4都表示一个属性,如西瓜的颜色,瓜蒂等。若用离散的东西处理连续的信号,需要先把离散的东西连续化。线性模型试图学得一个通过属性的线性组合来进行预测的函数。若有序(Order),则连续化;否则,转化为k维向量。x2]中用分号表示,则是列向量。如果用[x1, x2]中用逗号表示,则是行向量。可以把高当成1,中看成0.5,低看成0.为学习器性能比较提供最要依据。机器学习找的都是概率最优的。
2024-06-06 16:21:20
657
原创 性能度量[周志华老师西瓜书]
给你一堆西瓜,你查出来10个有好的,你给出的10个中,有几个是好的,这就是查准率。这里前面加上个系数没有影响。一般都加上1/2,这样在求导后,2可以直接约去。一堆西瓜中有20个是好的,但是你只给出了10个。你的查全率就是50%。什么样的模型是“好”的,不仅取决于算法和数据,还取决与任务需求。性能度量是衡量泛华模型能力的评价标准,反映了任务需求。这样可以使得较小的值不被忽视掉。回归任务常用均方误差。
2024-06-06 10:22:58
711
原创 机器学习评估方法
算法参数选定后,要用 “训练集+验证集” 重新训练最终模型。训练集中专门留出来调参数的部分。看参数怎么设置才是好的。轮转来当作测试集,这样每一个测试集都被测试过了。调参数的过程应该从训练集中来,而不是测试集中。亦称“有放回采样”、“可重复采样”。测试集和训练集应该"互斥"
2024-06-05 21:27:56
229
原创 监督学习和无监督学习
无监督学习是你知道数据的例子,不知道每个例子对应的结果。这样是无监督学习,又称作无导师学习。但是你可以通过属性进行分类,例如根据产地,颜色进行分类。监督学习又称有导师学习,是已经把结果告诉你了,例如一堆数据集是西瓜,有瓜迪,纹理,颜色,然后再把结果告诉你。每个数据对应的是好的,还是坏的。机器学习 能够知道经验误差,努力根据已有数据找出泛化误差。但也不是这两个东西越正确越好,因为会出现过拟合现象。指学习到的模型,处理新的问题的能力。处理新问题的能力越强,泛华能力越强。在训练集上的误差,亦称“训练误差”。
2024-06-05 15:26:32
119
原创 MAE和MSE
MAE存在一个严重的问题(特别是对于神经网络):更新的梯度始终相同,也就是说,即使对于很小的损失值,梯度也很大。而MSE在这种情况下的表现就很好,即便使用固定的学习率也可以有效收敛。总的来说,处理异常点时,MAE损失函数更稳定,但它的导数不连续,因此求解效率较低。,也可以看做L1损失,是一种用于回归模型的常用损失函数。其只衡量了预测值误差的平均模长,而不考虑方向,取值范围也是从0到正无穷(如果考虑方向,则是残差/误差的总和——平均偏差(MBE))。它表示的是预测值与实际观测值之间差的平方的平均值的平方根。
2024-06-05 09:42:07
1307
原创 windows 查看占用端口的进程 并且杀死进程
查到是2312进程占用了端口443,以管理员身份运行taskkill -PID 2312 -F杀死进程2312。查看端口 netstat -ano | findstr “443”
2023-04-05 20:55:48
178
1
原创 2021-09-16
记录自己第一次的blog以及第第一次额写题解@TOC题目 2264: 蓝桥杯2015年第六届真题-生命之树题目描述:在X森林里,上帝创建了生命之树。他给每棵树的每个节点(叶子也称为一个节点)上,都标了一个整数,代表这个点的和谐值。上帝要在这棵树内选出一个非空节点集S,使得对于S中的任意两个点a,b,都存在一个点列 {a, v1, v2, …, vk, b} 使得这个点列中的每个点都是S里面的元素,且序列中相邻两个点间有一条边相连。在这个前提下,上帝要使得S中的点所对应的整数的和尽量大。这个最大
2021-09-17 16:58:17
105
空空如也
项目上云,遇到的一些问题
2023-04-05
ON DUPLICATE KEY UPDATE demo
2023-04-02
Mybaits的去掉多余的符号问题
2023-03-17
前端vue axios请求问题
2023-03-13
springboot项目问题
2023-02-15
一个关于反省的问题。。
2023-02-12
一个java技术,简单的java技术
2023-02-07
TA创建的收藏夹 TA关注的收藏夹
TA关注的人