
小菜鸡加油
小菜鸡加油 标注为未解决的问题,欢迎各位大佬解答,有酬劳
程序猿的探索之路
走好人生中的每一步路!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【笔记】关于Transformer 的几个问题的思考:1.训练阶段如何并行,测试阶段如何串行 2.做翻译时,源语言和目标语言的输入输出位置分别在哪 3.解码器的自注意力有什么用 4. 交叉注意力的输入
测试时,源语言(句子)作为编码器的输入,目标语言(单词,除了<Bos>起始符以外,其它的单词都从解码器的输出获取的)作为解码器的输入,解码器的输出(单词)作为解码器的输入。举个例子,当解码器在生成句子中的一个词时,它可以通过自注意力机制参考已经生成的部分,以确保生成的内容在语法和语义上是连贯的。编码器(Encoder):输入的是源语言。解码器(Decoder):在训练阶段,解码器的输入是目标语言的句子,但输入是有一些特殊处理的。解码器在训练时的输入:解码器在预测每个词时,输入的是目标句子的前面部分。原创 2024-08-15 13:35:38 · 812 阅读 · 2 评论 -
【笔记】Transformer 中用于分类的cls_token:cls_token 是一个额外的可训练的 768 维嵌入向量,它被添加到输入序列的开头,这个向量用于捕捉整个图像的全局信息
位置嵌入 self.pos_embed 被添加到输入序列中,x = self.pos_drop(x + self.pos_embed)。nn.Parameter(torch.zeros(1, 1, embed_dim)) 将其初始化为全零张量,并转换为模型的可训练参数。在前向传播过程中,cls_token 被扩展到与批量大小一致的形状,即 [B, 1, embed_dim]。在模型初始化过程中,cls_token 被定义为形状为 (1, 1, embed_dim) 的可训练参数。原创 2024-07-31 22:47:44 · 1074 阅读 · 0 评论 -
【笔记】Transformer 中的两种位置编码的方式:正弦和余弦位置嵌入,不引入新的参数,不需要训练;直接用可训练的参数(nn.Parameter)初始化,引入了新的参数,需要训练
不需要训练,固定不变,模型参数更少,且在处理位置相关信息时表现良好。缺点是无法针对特定任务进行调整。:模型可以通过训练调整位置嵌入,使其更适应具体任务和数据。缺点是增加了模型参数,可能导致过拟合。原创 2024-07-31 22:40:47 · 355 阅读 · 0 评论 -
【笔记】word插入Endnote参考文献报错{***, 2007 #456}解决方案:将Instant Formatting 由Off设置为on,对提示错误段落进行文本删除或重新修改即可
2)注意记住弹窗中的标红字体区域,在出现的弹窗中点击 Ignore all以后,将word中的标红字体删除。1)将Instant Formatting 由Off设置为on。原创 2024-02-23 10:56:46 · 1436 阅读 · 0 评论 -
【笔记】深度学习的GPU加速方法: torch.cuda.amp.GradScaler() 、with torch.cuda.amp.autocast():
(循环体)训练的函数。原创 2023-12-30 21:13:30 · 812 阅读 · 0 评论 -
【笔记】scanf函数:读取参照getchar()
1. scanf %s %d 2. scanf %s %c原创 2023-02-07 11:55:32 · 510 阅读 · 0 评论 -
【笔记】Matlab 作图无法保存成矢量图的解决办法:画完图后,在工具栏中选文件-〉导出设置-〉渲染-〉设为painters(矢量格式)另存为时保存为你需要的格式就ok了
Matlab 作图无法保存成矢量图的解决办法:画完图后,在工具栏中选文件-〉导出设置-〉渲染-〉设为painters(矢量格式)另存为时保存为你需要的格式就ok了。原创 2023-01-10 20:52:25 · 1698 阅读 · 0 评论 -
【笔记】MATLAB文件中文乱码问题:使用记事本打开,保存成不同的格式,然后再使用Matlab打开观察结果
我的方法是从搜索的方法中偶然发现的,经过实践发现可以稳定解决乱码问题。3.再次打开之前的记事本,选择“另存为”,编码方式选择“ANSI”,保存类型选择“所有文件”。1.用记事本打开乱码的.m文件,选择“另存为”,编码方式选择“UTF-8”,保存类型选择“所有文件”。7.解决方法很简单,先将代码粘贴到word文档中,保存,再复制word中的代码,粘贴回原程序,即可保存文件。6.此时有可能出现报错提示,“无法使用GBK编码保存文件,请改用UTF-8编码保存文件”5.复制新文件的代码,粘贴到原文件中,保存即可。转载 2023-01-10 20:19:28 · 2875 阅读 · 3 评论 -
【笔记】from numpy import linalg as LA 标准化:[:,None]用来扩充None位置处维度
【代码】【笔记】from numpy import linalg as LA 标准化:[:,None]用来扩充None位置处维度。原创 2022-12-25 12:12:19 · 596 阅读 · 0 评论 -
【笔记】.detach() 和.detach_()的区别:前者返回一个新的tensor,从当前计算图中分离下来,requires_grad=false;后者是对本身的修改,原来的计算图也发生了变化
返回一个新的tensor,从当前计算图中分离下来的,但是仍指向原变量的存放位置,不同之处只是requires_grad为false,得到的这个tensor永远不需要计算其梯度,不具有grad。这样我们就会继续使用这个新的tensor进行计算,后面当我们进行反向传播时,到该调用detach()的tensor就会停止,不能再继续向前进行传播。总结:其实detach()和detach_()很像,两个的区别就是detach_()是对本身的更改,detach()则是生成了一个新的tensor。转载 2022-12-15 19:20:37 · 826 阅读 · 0 评论 -
【程序】def _hook(self, _, input, output), def _register_hook(self):通过隐式调用 将网络输出结果保存在字典中
【代码】【程序】def _hook(self, _, input, output), def _register_hook(self):通过隐式调用 将网络输出结果保存在字典中。原创 2022-12-14 11:56:10 · 538 阅读 · 0 评论 -
【笔记】Pytorch nn.Parameter():作为nn.Module中的可训练参数使用
Pytorch nn.Parameter():作为nn.Module中的可训练参数使用转载 2022-12-11 11:54:36 · 1313 阅读 · 0 评论 -
【笔记】Batch 的大小适合最好
Batch 视具体情况而定。转载 2022-11-26 15:28:01 · 566 阅读 · 0 评论 -
【笔记】ubuntu 中 移动硬盘无弹出选项的解决办法:sudo ntfsfix /dev/move_disk_name
【代码】【笔记】ubuntu 中 移动硬盘无弹出选项的解决办法:sudo ntfsfix /dev/move_disk_name。原创 2022-11-15 16:19:50 · 1827 阅读 · 0 评论 -
【笔记】Center Loss : 减小类内距离,增加类间距,使用矩阵计算高维空间距离集大成者
上面给的是mnist的最后一层特征在二维空间的一个分布情况,可以看到类间是可分的,但类内存在的差距还是比较大的,在某种程度上类内间距大于类间的间距。因为同一个人的类内变化很可能会大于类间的变化,只有保持类内紧凑,我们才能对那些类内大变化的样本有一个更加鲁棒的判定结果。因此这个公式就是希望一个batch中的每个样本的feature离feature 的中心的距离的平方和要越小越好,也就是类内距离要越小越好。损失函数来训练网络,得到的深度特征通常具有比较强的区分性,也就是比较强的类间判别力。转载 2022-11-14 10:37:36 · 5723 阅读 · 0 评论 -
【笔记】替换C++ 的并行函数
【代码】【笔记】替换C++ 的并行函数。原创 2022-11-03 22:04:18 · 521 阅读 · 0 评论 -
【笔记】C++/C--动态二维数组的内存分配与释放:C语言 malloc 和 free,C++ new 和 delete
要注意配对使用,即有多少个。,这样才可以避免内存泄漏!转载 2022-11-02 16:46:48 · 1893 阅读 · 0 评论 -
【笔记】_findnext x64报错解决办法:改为 intptr_t handle; //x64
error :0xC0000005: 写入位置 0xFFFFFFFFAE1B1940 时发生访问冲突。改为 intptr_t handle;之前的程序没问题,移植到x64位 _findnext(handle,&fileinfo) 报错。转载 2022-10-31 07:40:12 · 656 阅读 · 0 评论 -
【笔记】error C4996: ‘strcpy‘: This function or variable may be unsafe. Consider using strcpy_s instead
器】,对【预处理器】进行编辑,在里面加入一段代码:_CRT_SECURE_NO_WARNINGS。出现这个错误时,是因为strcpy函数不安全造成的溢出。解决方法是:找到【项目属性】,点击【C++】里的【转载 2022-10-30 16:48:09 · 2063 阅读 · 0 评论 -
【笔记】VS快捷键
这时可以将光标置于参数名上,再按组合键“Ctrl+Shif+空格”,参数被使用的地方会被高亮显示。3)键入搜索文本后,可以使用组合键“Ctrl+I”及“Ctrl+Shift+I”前后定位搜索结果,搜索结果会被高亮显示。[补充]选择一个单词后,按组合键“Ctrl+F”也可调出查找框口,且搜索结果也会被高亮显示。使用组合键“Ctrl+Tab”(此时可以打开IDE的导航,获得鸟瞰视图)。6.复制整行代码:光标停在该行,CTRL+C,再粘贴CTRL+V。2)转大写:使用组合键“CTRL + SHIFT + U”。转载 2022-10-26 20:01:05 · 520 阅读 · 0 评论 -
【笔记】torch.nn.identity()方法详解:放到最后一层后面显得没有那么空虚,因为前面的层后面都有个激活函数,就最后一层后面啥都没有所以放个Identity占位
torch.nn.identity()原创 2022-10-02 17:24:28 · 881 阅读 · 0 评论 -
【笔记】安装pytorch thop模块的BUG解决
我的user权限并不是和root一样,但是pip3 install 直接就安装到了/usr的目录下,这导致我的conda虚拟环境无法读取其中的库。个人猜测可能是软连接的时候路径有错误,应该软连接自己的user下的pip3 lib。所以博主试了很多方法,最后自己急中生智想到可不可以直接安装源码呢,结果1分钟不到问题解决。如果大家的pip install没有问题,直接使用pip install thop即可。在此顺便记录下thop看model的flops和parameters的语句。转载 2022-09-24 21:05:44 · 2877 阅读 · 1 评论 -
【笔记】“OSError: [WinError 1455]页面文件太小,无法完成操作。”解决方案
“OSError: [WinError 1455]页面文件太小,无法完成操作。”解决方案转载 2022-09-19 19:29:45 · 878 阅读 · 0 评论 -
【笔记】RuntimeError: Trying to backward through the graph a second time:将无关变量的梯度回传关系撤销
grad_fn 关系,梯度回传的目的是为了更新网络中权重和偏移量的值,所有与梯度回传过程中计算权重和偏移量无关的变量均应 .detach() 处理,避免发生此类错误。解决办法: 首先应该明白一件事,与XXX.backward() 中 XXX 有计算关系的所有变量均存在。原创 2022-09-09 10:33:40 · 1027 阅读 · 0 评论 -
【笔记】LaTex安装及使用(五)Endnote批量查找、导入和导出参考文献
三帖,实用,相关可以参考,循序渐进。转载 2022-09-08 11:04:15 · 1180 阅读 · 0 评论 -
【笔记】LaTex常见问题汇总(四)
(1)Texstudio显示编辑器代码行号(2)Latex出现Unable to open "xxxxx.pdf". No output PDF file written.编译错误可能是由于 PDF 文件被其他软件占用了,导致copy无法写入。你可以在编译知的时候关闭 PDF 阅读器,或者删除已经编译出来的 PDF 文件,建道议使用 SumatraPDF,福昕和 Adobe Acrobat Reader 都会占用 PDF 文件导致无法写入。转载 2022-09-08 10:58:07 · 2842 阅读 · 0 评论 -
【笔记】Latex参考文献管理(三)
文献管理很重要,一个好的管理方式可以让你在写论文时可以更好的集中精力去关注论文内容,而不用老是去注意那些无关琐碎的事,相信有写过参考文献比较多论文的同学,都有过被参考文献支配过的恐惧吧!不同期刊对于参考文献格式都不尽相同,这样每次投新的期刊都得全部再弄一次,而且用Word排版是还老是会莫名其妙的出项排版错误的问题,使得本来好好的心情都被弄糟了,搞到弄个参考文献一弄弄一天,浪费时间和精力,所以一个好的参考文献管理方式很重要,、谷歌、百度学术、ISI、SCI-HUB等等。文献管理工具:Endnote。转载 2022-09-08 10:49:43 · 485 阅读 · 0 评论 -
【笔记】pdflatex和xelatex的使用差别和建议:前者适合对英文内容进行编译,后者适合对中文内容进行编译
一般来说,pdflatex相对来说老一些,对于系统内的一些字体支持的不是很好,但是作为一个重要的编译方式,所支持的宏包也更多,一些很老的宏包需要pdf才能编译,这也是一个显著的优点。可以看到有很多报错,这次主要是写中文作业,之前都是写英文的论文,但是前几天写中文文档使用pdflatex还能好好编译,但是到了今天就没法编译了,于是又百度了很多方法,绝大部分都是没有用的,所以最后就考虑是不是因为编译方式的原因。pdflatex 和xelatex是latex编译中最常用的编译方式,而且效果一般都是比较好的。转载 2022-09-08 10:40:36 · 4371 阅读 · 0 评论 -
【笔记】LaTex安装及使用(二)
网站是非常不错的模板分享网站,收集了包括书信,报告,论文,演示文稿,简历等等模板,整体收集模板质量很不错,非常推荐,该网站逐步退出了排版和模板开发的服务,有兴趣可以多多了解。没错,LaTeX的确还可以制作精美的幻灯片pdf,不过具体使用方法与论文写作大同小异,网上也有很多漂亮的模板,有兴趣可以去了解。LaTeX的公式编辑可以说是其最为犀利的部分之一了,但其公式语法非常繁琐,不过令人高兴的是,这里有一个。图片可能很大,超过了输出文件的纸张大小,或者干脆就是你自己觉得输出的效果不爽。感兴趣的话,可以去查看。转载 2022-09-08 08:19:26 · 875 阅读 · 1 评论 -
【笔记】LaTex安装及使用(一)
TeX 系统是高教授开发的,当初并没有考虑到亚洲文字的问题。,下载 texlive.iso、texlive2020.iso、texlive2020-20170524.iso 哪个都可以,三个文件只是名称不同,.md5 校验码都是一样的。建议使用最新版 TeXLive,当前回答时间为 2020 年 4 月,由于 tug 每年大概 6 月份左右会更新,所以当前应下载 2020 版的。此外,除去中文支持,中文的版式处理和标点禁则也是不小的挑战。的字符结束的一串文字,他们并不被输出,但是他们会影响输出文档的效果。转载 2022-09-07 16:43:32 · 1485 阅读 · 0 评论 -
【笔记】如何下载并安装 LaTex
打开电脑cmd,在命令行输入texdoc lshort-zh会得到一份PDF,名叫。LaTex 是一个论文编辑软件,不过需要下载texstudio 才可以进行编写。一份(不太)简短的 LATEX 2ε 介绍文档。安装Letex 参考博客。转载 2022-09-07 10:18:37 · 319 阅读 · 0 评论 -
【笔记】torch.mean && torch.std :计算所设定维度的mean 和 std
eg:原创 2022-09-03 22:51:10 · 975 阅读 · 0 评论 -
【笔记】num_worker 和 数据加载之间的关系:在机器核心承受范围内,数值越大,并行加载数据数量越多,Dataloader加载数据集越快
_init__() 函数下的变量在__getitem__()函数下并行加1均为1,表示无先后之分。注: num_worker 越大,代表计算机cpu并行执行的线程越多,可以看到当num_worker 设置为6时,原创 2022-09-03 21:51:45 · 751 阅读 · 0 评论 -
【笔记】解决UserWarning: Matplotlib is currently using agg, which is a non-GUI backend
【代码】【笔记】解决UserWarning: Matplotlib is currently using agg, which is a non-GUI backend。转载 2022-09-03 21:41:38 · 505 阅读 · 0 评论 -
【代码】MobileNet-V2 网络
【代码】【程序】MobileNet-V2 网络。原创 2022-09-02 18:14:43 · 886 阅读 · 0 评论 -
【笔记】pth、pt、pkl的区别:pt 常做数据集的数据存储形式
在用torch.save()函数保存模型文件的时候,有些人喜欢用.pt后缀,有些人喜欢用.pth或 .pkl,用相同的 torch.save()语句保存出来的模型文件没有什么不同。另外,为什么会有 .pkl这种后缀名呢?我们经常会看到后缀名为.pt,.pth,.pkl的PyTorch模型文件,这几种模型文件在格式上有什么区别吗?据某些文章的说法,一般惯例是使用 .pth,但是官方文档里貌似.pt居多,而且官方也不是很在意固定地用某一种。在PyTorch官方的文档里,有用.pt的,也有用.pth的。.....转载 2022-08-30 17:37:18 · 7170 阅读 · 3 评论 -
【笔记】F.normalize(torch.nn.functional) 和 torch.norm:前者在后者求向量L2范数的基础上,增加了标准化
在维度操作方面,两者的操作一致。原创 2022-08-21 12:06:55 · 1343 阅读 · 0 评论 -
【笔记】Attention is all you need (4)
下面分享一篇实验室翻译的来自哈佛大学一篇关于Transformer的详细博文。"Attention is All You Need"[1] 一文中提出的Transformer网络结构最近引起了很多人的关注。Transformer不仅能够明显地提升翻译质量,还为许多NLP任务提供了新的结构。虽然原文写得很清楚,但实际上大家普遍反映很难正确地实现。所以我们为此文章写了篇注解文档,并给出了一行行实现的Transformer的代码。本文档删除了原文的一些章节并进行了重新排序,并在整个文章中加入了相应的注解。...转载 2022-08-18 20:41:13 · 173 阅读 · 0 评论 -
【笔记】Softmax 激活函数:分子,通过指数函数,将实数输出映射到零到正无穷;分母,将所有结果相加,进行归一化
Softmax 激活函数转载 2022-08-18 20:27:03 · 222 阅读 · 0 评论 -
【笔记】Warmup 预热学习率:它在训练开始的时候先选择使用一个较小的学习率,训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预设置的学习率来进行训练
使用Warmup预热学习率的方式,即先用最初的小学习率训练,然后每个step增大一点点,直到达到最初设置的比较大的学习率时(注:此时预热学习率完成),采用最初设置的学习率进行训练(注:预热学习率完成后的训练过程,学习率是衰减的),有助于使模型收敛速度变快,效果更佳。Warmup是在ResNet论文中提到的一种学习率预热的方法,它在训练开始的时候先选择使用一个较小的学习率,训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习来进行训练。........转载 2022-08-16 10:27:56 · 489 阅读 · 0 评论