- 博客(38)
- 收藏
- 关注
原创 BN与LN
在CV领域中,BatchNorm是对一个batch-size样本内的每个特征[分别]做归一化,LayerNorm是[分别]对每个样本的所有特征做归一化。这些不同样本的相同长度的向量,在同样的位置上进行归一化,也就是对N个值做归一化(均值标准差的公式),做(H,W)次。不同通道向量的同样的位置做归一化,也就是对C个值做归一化,同样做(H,W)次。LN:以样本为操作单位,一个样本中有多个通道,不同切片,很自然的理解,就是一个样本是由多个通道的数值向量构成的。每个向量的含义是每个样本的特定通道的数据向量。
2025-03-08 13:23:17
235
原创 模型压缩——量化
这就衍生出很多有趣的子问题,比如量化对象是什么(weight,activation,gradient),量化到几位(8位,4位,2位,1位),量化参数(如step size,clipping value)如何选择,量化参数是否可以自动优化,不同层是否需要不同的量化参数,如何在量化后恢复准确率或者在训练时考虑量化,等等。我们知道,大多深度学习训练框架默认下模型的参数是32位浮点的,计算也是32位浮点的。模型量化的基本思想就是用更低精度(如8位整型)来代替原浮点精度。
2024-09-10 14:28:44
277
1
原创 使用Lora微调LLM——笔记
Lora的目的就是用更少的权重(低秩的表达),来近似的代替原始的预训练满秩参数。LLM的预训练模型的权重很可能是满秩的,这代表几乎全部的权重都是有意义的。Lora没有真正地“调”预训练的参数,而是增加了一个低秩矩阵。
2024-08-30 16:44:28
320
原创 转移自己注意力的方法
专注做自己的事儿的时候,可以在每天睡醒的时候,计划一下自己主线的今日任务。当规划了每天都回归了今日任务,并按照思路去执行,其实就算是尽人事了。比如找个能看懂,理解,参与你的主线的人(B),多跟B交流,最好能把你的主线变成你们两个的都感兴趣的任务,或者你非常依赖B的输出。当忍不住去想某个人或者某件事(A),到了影响自己的主线(论文,去向)时,要想个办法去转移自己的注意力。脑袋里整天胡思乱想的,哎~~~~这样应该能减少A带来的内耗,同时增强B带来的帮助。现在在申博的时间节点,感觉压力还是比较大的。
2024-08-13 09:19:22
313
原创 时间序列预测领域公开数据集数据集下载
ETT,weather, exchange, electricity, illness等等。先占个坑,有时间上传一下。着急用的话,可以先联系我。
2024-07-25 10:04:26
298
原创 造轮子:autoformer等时序工作结果提取
时序预测领域,不管是Autoformer,FEDformer都使用同一个训练框架。输出的结果文件也都是按照相同的格式,输出为txt。在每次做完实验那结果的时候,都得一个个ctrl+c ,很麻烦,重复劳动。所以让kimi给造了个轮子,把txt导成execl。
2024-07-02 23:11:57
240
原创 :Zone.Identifier wsl2中在复制时出现 “:Zone.Identifier“文件
在命令行输入下面的命令, 可以把该路径下所有文件搜素一遍,并删除其中的 ":Zone.Identifier"文件。
2024-06-27 21:17:35
1194
原创 博客摘录「 FEDformer: Frequency Enhanced Decomposed Transformer for Long-termSeries Fore...」2024年5月2日
在Transformer结构中提出了傅立叶增强块和小波增强块,允许我们通过频域映射捕获时间序列中的重要结构。它们可以作为自我注意和交叉注意块的替代。该模型通过随机选择固定数量的傅里叶分量,实现了线性计算复杂度和内存开销。从理论上和实证上验证了该选择方法的有效性。
2024-06-04 14:06:42
167
原创 看shape的方式
在ubuntu跑一些开源工程的时候,想看看某个变量的shape。但不会进调试模式,那就在代码里面加一行,打印一下shape。但各种格式的打印shape老是混,现查麻烦,还要判断,而且容易打断思路。所以整理一下,后续这篇博客会不断更新。
2024-02-04 16:33:04
484
原创 Embedding 理解--图没往里插入,后面有空记得插入!!
基于下面这篇文章,写一下对embedding的理解Pytorch中Emdedding函数的解释及使用方法 - 知乎函数:torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None) 函数大概解释:相当于随机生成了一个tensor…首先说,我是做时序的。
2024-01-25 21:52:20
422
原创 Frequency-domain MLPs
一般来说,模型越复杂,其预测结果的鲁棒性对可用数据集的大小要求就越高。MLP模型,结构简单,参数量少。可以在可用数据量较少的情况下,捕捉序列的趋势。例如,N-BEATS, LightTS, DLinear基于mlp的预测方法,现有问题:1.点式映射:模型学习时过度关注细节,缺乏整体理解。2.信息瓶颈:瓶颈设置过紧,导致模型失去对有用信息的捕捉,导致欠拟合;太松,导致过度关注冗余信息,导致过拟合。mlp学习模型的特点:全局视图:频域信息能够使mlp拥有信号的完整视图,更容易学习到全局依赖关系;
2024-01-11 19:24:52
1471
6
原创 Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
采样的结果没有出现随采样频率出现单调的上升或下降趋势,更多的是无序的。Sparse Transformer, LogSparse Transformer Longformer 使用启发式的方法来解决,但它们的效率提升程度都受限。informer在wining-counts中胜过经典的退化informer, 这支持了查询稀疏度假设,在提供一个可观的注意力特征map。使用生成式的推理可以缓解长序列带来的推理速度的骤降。因为较长的编码器可能包含更多的依赖关系,而较长的解码器会包含更多的局部信息。
2024-01-06 18:39:37
1231
1
原创 整理之前不认识的论文里的英文
anomaly detection 异常检测 data imputation 数据补全 downstream tasks 下游任务 unified framwork 统一框架 diverse time series analysis tasks 多样的时间序列分析任务 empirical study 实证研究 consequencely 因此 conduct 进行;管理;实施;处理 suifficient 足够的
2024-01-04 21:30:33
464
1
原创 ARIAC:Agile-Robot Industrial Automation Competition
Participating teams need to develop algorithms and control strategies to enable their robot systems to identify, grasp, transport, and assemble parts to complete the tasks.
2024-01-04 18:46:37
963
1
原创 One Fits All: Power General Time Series Analysis by Pretrained LM
有些文章,需要科学上网。
2023-12-26 22:38:57
1866
原创 cannot connect to X server
ETE: cannot connect to X server · Issue #101 · etetoolkit/ete · GitHubapt-get install xvfbwget http://repo.continuum.io/miniconda/Miniconda-latest-Linux-x86_64.sh -O Miniconda-latest-Linux-x86_64.shbash Miniconda-latest-Linux-x86_64.sh -b -p ~/anacond
2023-12-26 22:35:26
419
原创 win键需要按三次才有反应+k580故障
电脑键盘shift,Ctrl.alt.win键都需要按三次才有用,怎么解决?-这种情况很可能是按键不灵如果是 (verywind.cn)电脑Shift.ctrl.alt.win键都需要按三次才能用,而且按一次响一次,这个要怎么解决?罗技k580键盘失效:使用usb连接器连接,突然不好用了。解决:通过客服给的优联unify软件,对k580重新配对usb连接器。ps:键盘电源重启的时候,一定要等5秒,再启动!这么折腾了一下午,就这个小细节,解决了问题。连按五次shift,出现。问题原因,开启了粘滞键。
2023-12-11 15:50:51
1219
1
原创 wsl2 安装
在这个网址里面,点点点,选择自己的配置,会给出命令行,直接在Ubuntu的terminal里面运行就可以。可以看到,我的显卡驱动版本为536.40>525.60.13, 对应表中12.3x版本的cuda。把下载的".sh文件"放到wsl的目录里面(自定义), 运行.sh文件就可以。做法应该是在bashrc里面加proxy,引入端口号。3.得到版本号,之后去下载对应版本的cuda。2.根据驱动的版本号,选择cuda的版本。## 换源:有一个华为源,比较好用。但我每次都失败,so。有会的大佬,请指教!
2023-12-08 15:21:59
381
原创 差分,平滑,nunique,log1p,标准化用的统计值
当该特征明显出现偏态分布时(偏前面),我们可以使用log1p(x)= ln(x+1), 对其分布进行调整使其接近正态分布。
2023-12-07 16:45:53
477
1
原创 pyarrow.lib.ArrowInvalid: Needed to copy 1 chunks with 1 nulls, but zero_copy_only was True
思路1:x = np.nan_to_num(x,nan=-1)
2023-11-15 00:35:28
694
原创 MATLAB使用GPU遇到的版本问题——Unable to find a supported GPU device. For more information on GPU support, see
原因:版本不匹配,可能是我用MATLAB是盗版的,而且其版本较CUDA版本太老。或者是GPU计算能力比cuda的更高。解决: parallel.gpu.enableCUDAForwardCompatibility(true)CUDA版本:cuda 11.0 (命令提示符中输入 nvcc --version 可查看)这行命令 启用了CUDA的前向兼容性。听起来很高级,我不懂,反正就是个适配的过程。刚输入的时候需要等待一小会儿,后面就正常用了。刚输入的时候需要等待一小会儿,后面就正常用了。
2023-10-17 21:49:46
1648
3
原创 Kaggle ——Child Mind Institute - Detect Sleep States
用手环记录的数据,训练模型,检测出入睡和睡醒的时间点。训练数据是500天传感器记录的序列(5/5个特征),训练一个模型。模型的功能是在test序列中,。这样标记相当于标记出睡眠的时间段,但标记的onset,wakeup与实际的存在差异。标记效果的好坏通过给定的代码event detection ap来打分,标记出的睡眠时间段与实际的时间段存在差异,利用IOU原理进行打分。
2023-09-26 10:54:09
908
1
原创 MATLAB使用GPU遇到的版本问题——Unable to find a supported GPU device. For more information on GPU support, see
显卡:GeForce RTX 4080 驱动更新至最新CUDA版本:cuda 11.0 (命令提示符中输入 nvcc --version 可查看)
2023-09-07 10:20:45
2825
1
原创 tensorboard 使用 SummaryWriter可视化 模型 时,遇到No dashboards are active for the current data set.
ps:之前都是直接用logs名字,不会出问题。包括用了土堆的P18 卷积层的代码试验了一下,直接用logs名字,tensorboard也是可以出图的。然后我又用P22的代码(也就是出问题的代码)跑了一次,这次直接用的名字,tensorborad又可以出了。在python里,已经实例了模型tudui。input是一个随机初始化的输入,将tudui的放到logs里面。背景:在学习B站小土堆的pytorch视频P22时,可视化模型时,遇到了这个问题。在Terminal里输入时,把logs的绝对地址放进去。
2023-07-05 22:58:52
217
2
转载 故障诊断数据集(资源汇总)
4、2012年IEEE PHM 比赛数据-FEMTO-ST轴承退化数据集。1、美国-凯斯西储大学轴承数据中心(CWRU)轴承故障诊断标准数据集。3、中国-西安交通大学-轴承故障诊断数据集。3、德国-帕德博恩大学-转子故障诊断数据集。11、巴西-里约热内卢联邦大学-转子数据集。5、美国-辛辛那提大学-IMS轴承数据集。13、美国-加州大学伯克利分校铣削数据集。5、中国-江南大学-轴承故障诊断数据集。10、意大利-都灵理工大学-轴承数据集。6、美国-康涅狄格大学-齿轮数据集。2、中国-东南大学-齿轮箱数据集。
2023-04-24 19:09:34
8015
9
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人