- 博客(28)
- 资源 (1)
- 收藏
- 关注
原创 电脑网络波动使服务器进程被kill
参考:SSH远程连接服务器时,避免因断网导致程序终端执行,可使用screen指令https://blog.youkuaiyun.com/weixin_41545780/article/details/104686862。
2024-12-27 11:28:59
107
原创 大模型压缩:使用Fisher信息从低秩表示模型
之前写过的文章里具体介绍了费雪信息,在一组观测数据中,Fisher信息量越大,对未知参数的估计就越准确。IwdefE∂w∂logpD∣w21但是,Fisher信息量计算代价太大。
2024-07-16 09:24:10
1134
原创 大模型压缩:基于贝叶斯优化的自适应低秩分解
PCA已经是老朋友了,每次一说主成分都会出现PCA。这篇文章利用预训练数据的子集作为校准数据集Dcalxii1n,首先用校准数据集的样本协方差矩阵(SCM)估计整个特征空间分布的Y的协方差矩阵CovSYn−11i1∑nyi−yˉTyi−yˉ1式中yi表示xi的特征,yˉ是校准数据集的特征值平均值。
2024-07-01 22:12:21
1163
原创 20240623日志:大模型压缩-sliceGPT
不改变transformer的结构。对于transformer中的每一attention或FFN层都有线性层,同时由于transformer中有残差连接(图中的。是transformer中一个块的输出,在经过RMSNorm(对每一行。引入到所有之前的层(一直到编码阶段)和所有之后的层(一直到LM头)。块),在训练集中抽取一些数据作为校准数据,喂给模型用来从前到后。图中的阴影是表示丢弃掉这部分数据。中的每一个元素拉回到0上下,与下一步的。引入每一块的线性层,所以需要把矩阵。)是一个矩阵操作,表示将一个向量。
2024-06-24 20:47:45
817
原创 20240620日志:TAS-MRAM的电阻开放分析
MRAM(Magnetic random access memory),磁随机存储器,利用磁性材料的状态来存储数据。MRAM的存储单元通常由一个磁隧道结(MTJ茅台酒MTJ^{茅台酒}MTJ茅台酒,Magnetic Tunnel Junction)组成,它包括两个铁磁(FM)层和一个绝缘的隧穿层。其中一个铁磁层的磁化方向是固定的(称为参考层或钉扎层),另一个铁磁层的磁化方向可以改变(称为自由层)。数据存储在自由层相对于参考层的磁化方向上,当自由层与参考层的电子自旋方向平行,整体表现为小电阻;
2024-06-21 18:25:56
669
原创 GPU的工作原理
warp使GPU的基本调度单元,每个warp由32个线程组成,作用是将大量线程分组并同时执行,以实现并行计算和隐藏内存访问延迟,Warp中的32个线程将同时执行相同的指令,但操作不同的数据,但如果遇到条件分支语句(如if语句),不同线程可能会选择不同的执行路径。通过这种一次加载大量数据,让CPU和DRAM之间的传输线忙起来,这从一定程度上“减少”了后面加载的数据的延迟,使程序快速运行 ,理论上来讲,即使这是单线程的程序,我的循环中迭代729次也是没问题的。对local问题,每增加N到个线程,多加载N。
2024-06-16 16:17:17
1258
原创 20240613日志:大模型压缩方法COPAL
在下面是从校准引导的修剪策略中观察到的权重停滞的数学见解。在持续学习领域,剪枝的作用有助于有效地维护和进化神经网络结构,COPAL提出一种优化LLM的新方法,该方法绕过了再训练过程。当使用新的校准数据集更新修剪后的模型权值时,可以观察到这种健忘现象,这将降低以前遇到的数据集或任务的性能,如图1.3。涉及到对不断进化的模型权重进行修剪,而不失去预训练的LLM的原始能力。方向的权重的变化高度敏感,可以看出这些权重对模型的性能很重要。个数据集的梯度的绝对值的和较小的权重进行剔除,就得到了剪枝后的模型。
2024-06-15 20:35:57
1148
原创 20240610日志:LLM Compression: SVD-LLM
从①中可以看出,忽略掉较小的奇异值0.1的LOSS比忽略掉较大的奇异值0.9的LOSS还要大,从②中可以看出,忽略掉较小的奇异值0.1&0.9的LOSS比忽略掉较大的奇异值2.4&0.1的LOSS还要大,这就证明不能认为小的奇异值对结果的影响就小。因此,在所提出的截断感知数据白化技术下,截断最小的奇异值会导致最小的压缩损失。而对模型输出贡献最小的不太重要的信息被丢弃(大的留下,小的忽略)是对SVD算法对LLM压缩的改进,SVD-LLM不敢苟同章节2.2中提到的“大的留下,小的忽略”进行因式分解的特殊方法。
2024-06-11 22:10:53
1166
原创 C盘永葆青春
3.我们在安装Python库时,pip install xxx 来安装包,但安装下载的文件都会缓存下来,而且一般都在C盘,C:\Users\Administer\AppData\Local\pip\Cache里,这个文件是可删除的。2.检查WPS、QQ、微信、浏览器、钉钉、网易云音乐、飞书、Onenote等设置里的文件保存位置,改到其他盘。1.几乎所有软件下载时都要查一下安装到其他盘。4.桌面文件夹可以使用快捷方式引到其他盘。
2024-06-11 14:20:35
322
原创 20240603日志:transformer
1] https://www.bilibili.com/video/BV14m421u7EM/ 小黑黑讲AI 2024 Transformer模型详解,Attention is all you need。[2] https://www.bilibili.com/video/BV13z421U7cs 3Blue1Brown 2024 直观解释transformer。
2024-06-03 22:15:03
768
原创 基于python的日历生成器(用于打印)
最近发现用平板越来越少了,上次充电还是两周前,今天打开一看还有一半电,每天打开平板就用用苹果日历,感觉用这个日历做计划很好用。所以打算把平板卖掉买个挂历。
2024-04-17 20:53:41
449
1
原创 精讲全局变量与局部变量同名时,内存如何分配
当main函数中定义局部变量a,这时候会重新给main函数中的局部变量a(main)分配内存,这里的a(main)的有效区间为一直到main函数的return 0;但是如果在复合语句中再定义一个局部变量a(for),那么系统会再开辟一个内存存放局部变量a(for),复合语句执行完后局部变量a(for)销毁。可以看到在复合语句中直接使用a,找到的是局部变量a(main),而不是全局变量a,这和书中的内容是一致的。
2023-03-06 11:25:33
240
原创 pytorch官方文档示例代码报错KeyError: tensor(5)分析
先写解决办法好习惯把报错的一行plt.title(labels_map[label])改成plt.title(labels_map[label.item()])问题、报错分析:最近复制了pytorch官方文档的一段代码做实验# 这段代码在Tutorials>Datasers&Dataloadersimport torchfrom torch.utils.data import Datasetfrom torchvision import datasetsfrom to
2021-07-14 18:40:24
1707
原创 深度优先算法(DFS)和广度优先算法(BFS)时间复杂度和空间复杂度计算精讲
现在我们设定任务为到山东菏泽曹县买牛逼,需要利用深度优先算法(DFS)和广度优先算法(BFS)在中国、省会、市、区县这张大的树中搜索到曹县,那么这个任务Goal就是找到曹县。假如图的最大路径长度m和最大分支因子b先用DFS计算时间复杂度和空间复杂度时间复杂度(算法对大小为n-T的实例执行基本操作的次数(n)):考虑最坏情况,也就是说我们找了整张中国地图的区县最后才找到山东菏泽曹县。时间复杂度就是找每个节点这个过程的数量,总共找了的次数,就是图中弧的个数。按最坏情况每个节点的最大分支因子都是b,
2021-05-18 19:55:55
7089
原创 通俗理解python列表的深浅拷贝与区分
浅拷贝是只拷贝内容,地址没有拷贝。比如laoBa_home = [1,2]地址是8888,我让laoBa_house = a.copy()这里a和b实际上指向的是同一个地址,a和b只是同一个房子的不同称呼,对b修改a当然也会跟着变。深拷贝是拷贝内容,也“拷贝”地址比如laoBa_home = [1,2]地址是8888,我让xiaoBa_home = copy.deepcopy(laoBa_home ),这里就是照着laoBa_home再盖一所房子叫xiaoBa_home。你修改xiaoBa_home
2020-12-31 20:15:31
196
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人