- 博客(39)
- 收藏
- 关注
原创 要不要设置tokenizer.pad_token = tokenizer.eos_token? ——对pad_token和eos_token的分析
pad_token和eos_token在训练过程和推理中扮演的角色是不同的。 如何设置pad_token。能不能让pad_token=eos_token。 tokenizer.pad_token = tokenzier.eos_token.
2024-11-08 15:07:34
3108
原创 【torch报错处理】RuntimeError: probability tensor contains either `inf`, `nan` or element < 0
RuntimeError: probability tensor contains either `inf`, `nan` or element < 0 报错解决,torch版本
2024-10-03 01:17:06
4374
3
原创 【位置编码】【Positional Encoding】直观理解位置编码!把位置编码想象成秒针!
PEpos2isin100002idmodelposPEpos2i1cos100002idmodelpos这里提供一个直观的理解方案,可以帮助你轻松理解为什么要如此编码。【转载注明出处】
2024-08-30 17:15:11
884
1
原创 【Hopfield 网络】 记忆和联想
Hopfield网络,因此为了在听到旋律之后快速找到对应的曲子,或者说肽链成为能量稳定的蛋白质,其过程依赖的必然不是搜索!而是一个更加自然的规律。这个规律对于肽链来说,就是根据自然物理法则的规律,不停的降低自己的能量!这个规律对于寻找曲子来说,则更为抽象一点,可以理解成对有噪声输入的还原!(1)现在听到的歌曲是一个小球,小球在一个广场(你的思维)上;(2)它在广场上的位置初始的位置就是他自身的旋律(包含你听到的外界的噪声且不完整);(3)小球不停的在重力(重力就是你的大脑的思考!
2024-08-25 00:49:26
1275
原创 [草稿]关于冲击响应,低通滤波器和高通滤波器,响应曲线和功能的直观理解
躺在床上想着想着睡着了,醒了之后随便写下了点东西。很早学过的一些知识,重温觉得有趣了起来。写的内容很乱,也没翻书核对啥,也没啥数学,就是直观的一些理解。乱七八糟的权当是起床后落笔记录一下梦中之事。
2024-08-11 23:18:24
523
原创 【Karapathy大神build-nanogpt】Take Away Notes
【代码】【Karapathy大神build-nanogpt】Take Away Notes。
2024-07-14 12:12:24
1177
原创 事实验证文章分类 Papers Category For Fact Checking
一些关于事实验证领域证据召回,验证推理过程的文献综合整理分类(不是很严谨)。欢迎从事事实验证Fact Checking领域的友友们前来交流,讨论。可以私信我,也可以评论我,我都会看到滴,有合作意愿的也欢迎!
2023-12-25 10:46:08
1581
原创 【Huggingface】DataCollatorForSeq2Seq中的pad_to_multiple_of选项
【Huggingface】DataCollatorForSeq2Seq中的pad_to_multiple_of选项 ### 也就是说当pad_to_multiple被设置成None以外的内容时,通常是8或者16,max_label_length会被调节成设置值的整数倍,这样做的目的是方便N卡更高效利用计算能力。
2023-10-17 15:20:12
1261
原创 【CUDA OUT OF MEMORY】【Pytorch】计算图与CUDA OOM
在实践过程中多次碰到了CUDA OOM的问题,有时候这个问题是很好解决的,有时候DEBUG一整天还是头皮发麻。最近实践对由于计算图积累导致CUDA OOM有一点新的看法,写下来记录一下。包括对计算图的一些看法和一个由于计算图引发错误的简化实例记录。
2023-09-07 20:17:18
823
1
原创 【PyTorch distributed】多卡训练原理简析与RuntimeError: Expected to mark a variable ready only once.报错分析
当一个bucket中的所有hook都被触发,意味着这个bucket中的变量的梯度都已经计算得到,Reducer便立刻开启横跨所有进程的异步的梯度平均。此时由于不同rank的计算图不一样,没有任何一个bucket会ready,自然任何一个bucket的allreduce也不会被触发,Reducer虽然会在所有bucket变成ready后等待各自完成allreduce操作,但是当所有进程的backward()已经完成梯度的计算,Reducer将不会等待还未进入ready状态的bucket。得到不同的随机参数。
2023-05-19 17:56:58
4280
7
原创 Diffusion Model 扩散模型 / 一知半解版
网上很多扩散模型的理论说明了,涉及到了推倒过程和原理知识,等等。我看了一些,不论如何,我就是感觉生涩难懂,难达精髓。
2023-04-19 16:13:22
385
原创 前向网络,两层MLP,可以作为未归一化的Key-Value记忆结构
个key-value对,这个成对的kv就是记忆。每个key用一个d维的向量表示。以此分布查询key对应value的值进行聚合得到输出结果。如果去掉偏置,可以改写成。同样我们可以定义value矩阵。个key就可以构成一个参数矩阵。,我们可以轻松的计算输入向量在。传统的两层神经网络可以被写为。个keys上的分布(伪分布)
2023-02-20 14:41:46
225
原创 在windows上拥有mac的键盘体验【autohotkey】
希望在windows11上有mac的键盘操作逻辑,ctrl和command操作,桌面切换
2022-08-04 21:09:32
2786
原创 Pytorch_Geometric(PyG)使用DataLoader报错RuntimeError: Sizes of tensors must match except in dimension 0.
使用Pytorch_Geometric(PyG)时构建DataLoader,从DataLoader获取样本Batch时报错:RuntimeError: Sizes of tensors must match except in dimension 0报错原因是数据对齐错误,1个batch是多个样本的集合,在样本拼接成集合时出现错误,其规律如下:如何解决:...
2022-06-23 01:26:51
6620
10
原创 【碎碎念】关于波长|波速|周期的想法
本人物理理解从来不够深刻,足够应试而毫无思考,今日听闻一个关于波长波速的解释,觉得不妥波速=波长*频率,这个是从小就滚瓜烂熟的公式,至少我是从这个公式开始入门的v=λfv = \lambda fv=λf但是我现在想来想去,还是觉得不妥,这样写的公式容易对初学者造成误解,还是以λ=vf\lambda = \frac{v}{f}λ=fv为入门公式更为妥当(下文解释)。波长是波的性质,波的产生有两个要素,一是波传播的介质,二是波的振源。前者波传播的介质决定了一个波的传播速度,波的传播速度仅和介质的物理状态有关
2022-06-07 22:12:44
1065
1
原创 变分自编码器的推导,VAE的推导,ELBO|证据下界|训练方法
前提描述: VAE在编码器输入x时隐藏变量h的分布为E(h|x),解码器在给定隐藏变量h对应的x的分布为D(x|h),模型的隐藏变量的分布满足Q(h),模型后验概率为D(x)=∫\int∫D(x|h)Q(h)dh,从证据下界推导VAE的损失函数给定输入xxx时,模型需要最大化对数似然概率,故而损失函数可以写成Loss:=−logD(x)Loss := -\log D(x)Loss:=−logD(x),模型最小化损失函数即是要最大化对数似然概率。logD(x)=∫E(h∣x)logD(x)dh=∫E
2022-05-31 15:59:13
2923
原创 一些python不基础的基础知识
动态的定义类万物皆对象,类本身也是对象,一个类是一个type对象class A: passprint(type(A))# 输出是 <class `type`>这意味着我们可以使用type动态的定义一个类def f(self): self.name = "bob"dic = { "id":3 , "f":f }A = type('A',(),dic)a = A()以上代码等价于class A(): id = 3 def f(self
2022-05-22 00:45:02
207
转载 一些相关的资源收集帖子,收藏我喜欢的科普文~
潜在狄利克雷分布lda讲的很透彻清楚的文章:!来自链接:https://zhuanlan.zhihu.com/p/309419680?utm_source=ZHShareTargetIDMore
2022-04-20 21:55:43
121
原创 matplotlib pyplot 总结贴~【个人收录/随缘更新】
防忘,简单记录在绘制的时候就指定label标签import matplotlib.pyplot as pltplt.plot(x,y,label=l1)plt.plot(a,b,label=l2)plt.legend()在绘制之后统一制定plt.plot(x,y)plt.plot(a,b)plt.legend([l1,l2])两种效果等价
2022-03-05 00:35:30
223
原创 char类型和常数类型的值比较【C语言踩坑记录】
今晚因为一个小任务debug耗时远超预期,究其原因是踩到了一个之前没有接触的坑。总结为以下三个问题:问题1:char temp;temp = 0xBA;cout<<(uint)temp;这个输出的结果是多少?A:186B: -70C: 其他问题2:char temp = 0xBA;if(temp==0xBA) cout<<"T";else cout<<"F";请问最后的输出结果是多少?问题3:char temp;temp
2022-03-01 23:44:11
968
原创 GMM算法与KMeans算法的联系(高斯混合 K-means)
从混合高斯密度函数估计的角度,简述K-Means聚类算法的原理。给出K-Means聚类算法的计算步骤,说明会影响K-Means算法聚类性能的因素K-Means算法可以看作是一种简化的混合高斯模型,在GMM模型中,需要估计的参数有每个高斯成分前的系数,每个高斯成分的协方差矩阵和均值向量。K-Means等价于固定GMM中每个高斯成分的系数都相等,每个高斯成分都协方差矩阵为单位阵,只需要优化每个高斯成分的均值向量。那么K-Means模型可以写成(一共有C个类别,n个样本):p(x)=1C∑i=1C12πexp
2022-01-12 21:28:45
1203
原创 匈牙利算法指派问题的python实现 & 使用python计算聚类精度
匈牙利算法的python实现了解匈牙利算法的内容和其对偶问题的理解:匈牙利算法与对偶观点简单描述匈牙利算法一个原始的指派问题:有n个工人,和n个需要作业的地点。需要为每个工人安排一个工作的地点,记变量xij=0 or 1x_{ij}=0\ or\ 1xij=0 or 1,代表派第i个工人去第j个地点的情况(0代表不指派,1代表指派)。同时将第i个工人派去第j个地点存在一定的开销,记录为cijc_{ij}cij。公司要求最小化开销。将cijc_{ij}cij
2021-12-12 13:02:04
3048
3
原创 用对偶问题的视角解释匈牙利算法
用对偶的视角解释匈牙利算法分配指派问题一个原始的指派问题:有n个工人,和n个需要作业的地点。需要为每个工人安排一个工作的地点,记变量xij=0 or 1x_{ij}=0\ or\ 1xij=0 or 1,代表派第i个工人去第j个地点的情况(0代表不指派,1代表指派)。同时将第i个工人派去第j个地点存在一定的开销,记录为cijc_{ij}cij。公司要求最小化开销,那么这个原始指派问题的数学描述是:min∑i=1n∑j=1ncijxijs.t.∑j=1nxi
2021-12-11 17:46:11
1596
原创 PCA LDA 降维算法 介绍 实现 对比
PCA的原理、学习模型、算法步骤PCA的目的是对于对于样本x∈Rdx\in \R^dx∈Rd,寻找到一个变换矩阵WT,W∈Rd×m,m<dW^T,W\in\R^{d\times m},m<dWT,W∈Rd×m,m<d,通过变换矩阵可以将样本转化为低维表示y=WTxy=W^Txy=WTx,并且最大可能的保留样本信息。从最大投影误差来解释PCA的原理,我们希望得到的yyy在特征空间中能尽可能的分散,假设对于样本集合满足0均值化,∑xi=0\sum x_i=0∑xi=0,那么投影之后的新样
2021-12-05 00:52:39
1423
原创 Python 使用numpy 完成 反向传播 多层感知机
一些废话虽然Python使用numpy完成反向传播设计多层感知机已经烂大街了,但因为作业需要还是自己动手写了一个,使用了层次化设计的思想。仅此记录一番。层的设计中仅实现Sigmoid和Tanh两个激活函数。模型部分import numpy as npfrom matplotlib import pyplot as pltclass layer(): def __init__(self,inputdim,outputdim,act,bias=True): self.b
2021-11-14 12:32:35
2993
8
原创 Ho-Kashyap Algorithm 原理笔记
Ho-Kashyap 算法任务:给定样本{x1,x2,...,xn},xi=[xi1,xi2,⋯ ,xid]T\{x_1,x_2,...,x_n\},x_i=[x_{i1},x_{i_2},\cdots,x_{id}]^T{x1,x2,...,xn},xi=[xi1,xi2,⋯,xid]T,设每个样本属于两类中的某一类{1,−1}\{1,-1\}{1,−1},用线性模型对样本进行划分。方法:将每个xix_ixi转化成yiy_iyi,如果xix_ixi属于{1}类,yi=[1,xi
2021-10-31 03:09:38
1046
原创 torch使用DataParallel并行时,模型使用Forward函数注册属性变量丢失的问题(表现为局部变量而不是类属性)
torch使用DataParallel并行时,模型使用Forward函数注册属性变量丢失的问题(表现为局部变量而不是类属性)如标题表达,关注’m’属性和’y’属性的变化。注意到通过调用并行模型的forward函数注册self.m变量并没有成功成为类的属性变量。但是通过自己实现的test函数注册的self.y变量成功成为了类属性变量。原理未知,望大佬赐教xxx.py文件内容测试结果...
2021-09-24 19:53:12
477
3
原创 图的谱图理论
图的谱图理论[Updating]文章目录图的谱图理论[Updating]参考内容概述参考内容从普通的拉普拉斯算子到图上的拉普拉斯算子L=D-W论文:《The Emerging Field of Signal Processing on Graphs: Extending High-Dimensional Data Analysis to Networks and Other Irregular Domains》推荐:如何理解拉普拉斯矩阵的特征值表示频率,拉普拉斯矩阵的特征向量作为基和基底 7,7
2021-08-25 15:02:19
2667
原创 笔记:Pytorch-geometric: GAT代码超详细解读 | source node | target node | source_to_target
文章目录笔记:Pytorch-geometric: GAT代码超详细解读 | source node | target node | source_to_target前言Torch geometric官方的GAT实现源码解读输入图__init__部分forward部分重构message方法总结笔记:Pytorch-geometric: GAT代码超详细解读 | source node | target node | source_to_target知识分享求点赞QAQ,能力有限,如有错误欢迎诸位大佬指正
2021-04-15 17:06:28
20514
26
原创 笔记:文澜:桥接视觉和语言的大规模多模态预训练 WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training
WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training文澜:桥接视觉和语言的大规模的多模态预训练本文是一部分简单的(机翻+手工调整),具体请参考原文内容【Arxiv地址】文章目录WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training摘要介绍方法摘要近年来,人们对多模态的语前训练模式进行了深入的探索,以建
2021-04-14 15:59:54
2548
原创 二分类问题的micro-F1 score(f值)和Accuracy(准确度)
直接上结论: 二分类的micro-F1 score和Accuracy的值相等关于 F score 和micro-F score以及macro-F score可以参考:参考文对于二分类问题(A类和B类),某分类器判断结果为判断为A类判断为B类实际为A类ab实际为B类cd为了计算 micro-F1 score,计算整体的TP,FP,FN。对于A类来说 TPA = a ,对于B类来说 TPB = d ,同理可得 FPA= c ,FPB = b,以及FNA= b
2021-01-11 02:52:41
4434
原创 卡方检验原理笔记
卡方检验原理笔记接触到卡方检验,阅读相关博文后写下自己的理解。可以先看一下博文,再回来看接下来的内容。首先举个例子,以常见的喝牛奶和感冒的关系为例:某次统计的结果得到如下数据:没感冒感冒总计不喝牛奶abn1喝牛奶cdn2其中a+b=n1,c+d=n2为了探索感冒与否与是否喝牛奶有无关系,我们做出假设H0:两者无关系(零假设)为了验证H0是否是正确的,我们采用卡方检测的方法。先假设H0是正确的,即两者无关,那么理想的调查结果是:没感
2021-01-09 02:06:47
3595
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人