自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 lora为什么可以合并进原始模型?

2、120*100的矩阵与100*10和10*100的矩阵先转换为100*100的低秩方阵相乘。#发现提前相加的结果与分开运算结果相同,这就是为什么lora可以合并进原始模型。#1、120*100的矩阵与100*10相乘,输出再和10*100的矩阵相乘。#这是输入数据,维度为100,长度为120。#我们把低秩方阵提前与线性层相加。# 这是一个lora。

2023-09-15 09:58:31 983

原创 关于pytorch中(view,reshape),permute,transpose的一点理解与记录

其实tensor到底在内存中还是一串连续数据,依靠stride属性规范了维度索引,依靠size属性规范了维度的大小。由此我们可以明白,只需要改变tensor的stride和size就可以达成改变tensor的目的。但是view算法是建立在改变一个“内存里面的存储顺序是和print出来tensor的打印顺序一样”的tensor基础之上的,所以要不我们用contiguous把tensor规范化,要不用reshape一键式操作。

2023-04-07 11:14:56 259

原创 关于隐藏在CUDA error: device-side assert triggered之下的embedding层报错IndexError: index out of range in self

这时候原因就很明了了,这是因为Roberta用的词表是区分大小写的,而bert-tiny的词表是不区分大小写的。因为我是用Roberta的词表预处理数据集,而我又用bert-tiny来embedding这些token-id,这当然是不行的。我正式的项目是用Roberta-base做句子分类,我后面因为想在自己笔记本上跑一个迷你版本,所以就把Roberta换成了bert-tiny。这个报错的意思是程序运行时发生了意料之外的情况,但是因为这是在显存里发生的事情,具体是错误什么编译器就不知道了。

2023-04-05 12:11:03 419 3

原创 python的多进程笔记

在处理数据集时,常常会遇到用for循环处理数据集的情况。但是如果简单地用for循环就会出现cpu资源利用不充分的情况。

2023-04-02 17:07:34 418

原创 剑指offer笔记-二叉搜索树的后序遍历序列

题目:输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历结果。假设输入的数组的任意两个数字都互不相同。而二叉搜索树的后序遍历则是小于最后的根节点的是左子树,大于根节点的是右子树。每一个节点如果其有左子树,那么左叶树所有元素都必然小于它。同理其如有右子树,那么其右叶树所有元素也必然大于它。我们只需要保证每个节点作为根节点的时候,该节点都是大于其左子树小于其右子树,就行了。该文章只作为本人笔记,如有表述和逻辑上的错误欢迎指摘。输入: [1,6,3,2,5]输入: [1,3,2,6,5]

2023-03-27 17:21:03 104

原创 如何解决长对话摘要生成问题?

基于transformer的模型已经在短输入的摘要提取方面取得了先进的性能。但是也正是由于注意力机制交互的机制,在运算资源有限的情况下,提取长对话的摘要是十分困难的。DYLE这篇论文采用了先提取再生成的方案——即先由重要句子提取器提取对话集中的重要句子,再根据这些重要句子摘要生成器生成摘要。而这篇文章的创新点在于,作者设计了一个动态潜在提取(Dynamic Latent Extraction)方法,用于联合训练重要句子提取器和摘要生成器。同时这种方法还具有一定的可解释性。

2023-03-21 22:24:21 1218 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除