自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 BtachNorm和LayerNorm

我们用batchsize ,seqlen,encin(批次大小,时间序列长度,特征数)的数据格式来解释一下(128,96,7)

2025-03-08 15:49:20 330

原创 SELF-SUPERVISED CONTRASTIVE LEARNING FOR LONG-TERM FORECASTING(ICLR2024)

Junwoo Park, Daehoon Gwak, Jaegul Choo, Edward ChoiKim Jaechul Graduate School of AI, KAIST, Daejeon, Republic of Korea

2025-02-27 19:42:10 827

原创 A Comprehensive Survey of Deep Learning for Multivariate Time Series Forecasting: A Channel Strategy

独立的处理每个通道,不考虑他们之间任何潜在的的相互关系和相互关联。每个通道
都被处理为独立的输入,不使用任何共享信息或依赖项。此外,CI策略提供了灵活性,因为添加新渠道不需要对模型架构进行更改,使其能够无缝适应不断发展的数据集。将所有的通道考虑为统一的整体,假设他们之间相互依赖且相互关联。在预测过程中将它们视为一个统一的整体。

2025-02-23 16:05:48 626

原创 服务器激活环境

正常连接到服务器后,需要激活一下整个服务器的环境。

2024-08-06 19:28:27 159

原创 15种方法序列预测总结(包含代码)

https://cloud.tencent.com/developer/article/2414123

2024-07-10 15:54:51 185

原创 MLP Multilayer Perceptron(多层感知机)

a. 不使用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。b. 使用激活函数,能够给神经元引入非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以利用到更多的非线性模型中。

2024-07-09 20:50:00 403

原创 什么是自回归解码?

在每一步,Draft阶段会生成5个token,绿色的是目标模型确认的token,红色是目标模型第一个拒绝的token,蓝色是经过修正的token(注意,第一个被拒绝的token之后的所有token都将被丢弃)。在大模型的时代,随着模型参数量增加,生成token所需的访存时间大大增加,传统的串行式的自回归生成方法不再适用。由于top-k采样的k值是固定的,不同的概率分布可能会带来不同的问题。Temperature的取值一般在0-1之间,值越大,概率分布越平缓,生成的序列更具多样性,适合于需要创造性的任务;

2024-07-08 20:49:49 869

原创 从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)(3)(注意力机制)

这种情况下,这组词向量就组成了一个数据矩阵,假如输入的是一个t行的矩阵,输出的也是一个t行的矩阵,输出的列数,也就是token维度的个数,我们把token变成词向量,就像把大象变成石头,方便后面的操作。Q和K可以看成,Q向量的每一行和K向量的每一行点积后的结果得到一个新的矩阵,如果用代数表达的话,就是Q1,: * KT;,2=a12,Q的第一行的所有列,和K的转置的第二列的所有行相乘。假设X1,X2,XN这个向量,他是一个多元正态分布,这里头的X的每一项都遵循正态分布,而且是标准正态分布。

2024-06-24 16:19:19 1133

原创 从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)(2)

一个神经网络的隐藏层,就是在进行一次空间变换。潜空间就是一个纯粹的语义空间,一个token被嵌入后,就变成了一个多维的向量,向量的每一个维度,都代表了一个独立的语义。维度都是一个一个的语义,如果换成图片的话,每一个维度都是一个一个的RGB通道。一个token完整的语义,也必须是把潜空间上,所有维度的数据都放在一起,才有意义。编码就是先把一个文本里的token,都先变成独热码,然后进行降维,这个过相当于把输入的一句话根据语义投射到潜空间。1的卷积核可以把,图像里的所有的通道合成一个通道。

2024-06-24 09:47:14 364

原创 从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)(1)

1、发展过程理解transformer的关键是这个编码和解码的结构,那么这个码 是什么码呢?这就要回到最基本的内容了。人工智能最典型的场景,一个是人工识别,一个是自然语言处理。神经网络靠的是CNN,最先在图像识别领域爆发出来的。在NLP领域,也有一个和CNN对应的模型,是RNN(循环神经网络)。独热编码是对应的语义空间的维度太高了。信息密度过于稀疏。它可以很容易的表示出苹果和香蕉的组合语义。苹果是001,香蕉和010。苹果和香蕉是011.但是独热码的问题是所有的token都是独立的维度。所有的token

2024-06-23 18:50:16 834

原创 Python中self,下划线的作用

除此之外,类的方法(函数)和普通函数没啥区别,你既可以用默认参数、可变参数或者关键字参数(args是可变参数,args接收的是一个tuple,kw是关键字参数,kw接收的是一个dict)。(1)__init __方法的第一参数永远是self,表示创建的类实例本身,因此,在__init __方法内部,就可以把各种属性绑定到self,因为self就指向创建的实例本身。定义的变量是特殊变量,前后都有两个下划线的话,是特殊变量,但不是私有变量,不同的构造函数是可以直接访问的。在代码中还有很多下划线的变量。

2024-06-20 17:19:20 331

原创 服务器下环境的配置

之后创建属于自己的虚拟环境,激活虚拟环境。之后的配置和在本地的配置环境的方法一样。

2024-06-19 10:36:17 309

原创 最小二乘法得出w,b的表达式[周志华老师西瓜书]

得到对其w,b的求偏导的式子。得出w,b的表达式。求出w,b的值,令其值最小。分别对其w,b求偏导。然后推出w,b的表达式。

2024-06-06 17:19:06 211

原创 比较检验[周志华老师西瓜书]

这里的公式,每个x1,x2,x3,x4都表示一个属性,如西瓜的颜色,瓜蒂等。若用离散的东西处理连续的信号,需要先把离散的东西连续化。线性模型试图学得一个通过属性的线性组合来进行预测的函数。若有序(Order),则连续化;否则,转化为k维向量。x2]中用分号表示,则是列向量。如果用[x1, x2]中用逗号表示,则是行向量。可以把高当成1,中看成0.5,低看成0.为学习器性能比较提供最要依据。机器学习找的都是概率最优的。

2024-06-06 16:21:20 657

原创 性能度量[周志华老师西瓜书]

给你一堆西瓜,你查出来10个有好的,你给出的10个中,有几个是好的,这就是查准率。这里前面加上个系数没有影响。一般都加上1/2,这样在求导后,2可以直接约去。一堆西瓜中有20个是好的,但是你只给出了10个。你的查全率就是50%。什么样的模型是“好”的,不仅取决于算法和数据,还取决与任务需求。性能度量是衡量泛华模型能力的评价标准,反映了任务需求。这样可以使得较小的值不被忽视掉。回归任务常用均方误差。

2024-06-06 10:22:58 711

原创 机器学习评估方法

算法参数选定后,要用 “训练集+验证集” 重新训练最终模型。训练集中专门留出来调参数的部分。看参数怎么设置才是好的。轮转来当作测试集,这样每一个测试集都被测试过了。调参数的过程应该从训练集中来,而不是测试集中。亦称“有放回采样”、“可重复采样”。测试集和训练集应该"互斥"

2024-06-05 21:27:56 229

原创 监督学习和无监督学习

无监督学习是你知道数据的例子,不知道每个例子对应的结果。这样是无监督学习,又称作无导师学习。但是你可以通过属性进行分类,例如根据产地,颜色进行分类。监督学习又称有导师学习,是已经把结果告诉你了,例如一堆数据集是西瓜,有瓜迪,纹理,颜色,然后再把结果告诉你。每个数据对应的是好的,还是坏的。机器学习 能够知道经验误差,努力根据已有数据找出泛化误差。但也不是这两个东西越正确越好,因为会出现过拟合现象。指学习到的模型,处理新的问题的能力。处理新问题的能力越强,泛华能力越强。在训练集上的误差,亦称“训练误差”。

2024-06-05 15:26:32 119

原创 MAE和MSE

MAE存在一个严重的问题(特别是对于神经网络):更新的梯度始终相同,也就是说,即使对于很小的损失值,梯度也很大。而MSE在这种情况下的表现就很好,即便使用固定的学习率也可以有效收敛。总的来说,处理异常点时,MAE损失函数更稳定,但它的导数不连续,因此求解效率较低。,也可以看做L1损失,是一种用于回归模型的常用损失函数。其只衡量了预测值误差的平均模长,而不考虑方向,取值范围也是从0到正无穷(如果考虑方向,则是残差/误差的总和——平均偏差(MBE))。它表示的是预测值与实际观测值之间差的平方的平均值的平方根。

2024-06-05 09:42:07 1307

原创 【无标题】

写自定义目录标题)

2024-05-26 15:54:40 309

原创 【无标题】

域名解析解析到80端口,之后需要自己在nignx配置,转到自己需要的网址。

2023-04-07 17:30:30 94 1

原创 windows 查看占用端口的进程 并且杀死进程

查到是2312进程占用了端口443,以管理员身份运行taskkill -PID 2312 -F杀死进程2312。查看端口 netstat -ano | findstr “443”

2023-04-05 20:55:48 178 1

原创 2021-09-16

记录自己第一次的blog以及第第一次额写题解@TOC题目 2264: 蓝桥杯2015年第六届真题-生命之树题目描述:在X森林里,上帝创建了生命之树。他给每棵树的每个节点(叶子也称为一个节点)上,都标了一个整数,代表这个点的和谐值。上帝要在这棵树内选出一个非空节点集S,使得对于S中的任意两个点a,b,都存在一个点列 {a, v1, v2, …, vk, b} 使得这个点列中的每个点都是S里面的元素,且序列中相邻两个点间有一条边相连。在这个前提下,上帝要使得S中的点所对应的整数的和尽量大。这个最大

2021-09-17 16:58:17 105

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除