- 博客(62)
- 收藏
- 关注
原创 【无标题】
2)尽量减少模型参数修改,例如冻结大部分参数,仅训练部分层和参数;或者训练时候设置较低的学习率,较少的迭代步骤等。finue-tuning的一个常见问题是:微调的任务能力提升,但是原有的能力下降,泛化性变弱,也就是遗忘问题(catastrophic forgetting)2)占用输入token的长度,会导致留给实际输入的长度变少,影响输入描述。3)泛化性可能会变弱,模型会尽可能拟合example的结果。1)加入通用数据,或者训练感兴趣能力的数据,保持原有能力。4)使用多任务学习,同时学习需求的任务。
2024-04-20 19:41:51
252
原创 多模态系列-综述Video Understanding with Large Language Models: A Survey
随着在线视频平台的蓬勃发展和视频内容量的急剧增长,对高效视频理解工具的需求显著增强。鉴于大型语言模型(LLMs)在语言和多模态任务中展现出的强大功能,本综述详细梳理了利用LLMs进行视频理解领域研究的最新进展,特别是在视频理解大型语言模型(Vid-LLMs)方面的突破。Vid-LLMs展现出的新兴能力极为先进,特别是其结合常识知识进行开放性时空推理的能力,预示着未来视频理解的一个极具潜力的发展路径。
2024-04-03 14:30:30
1779
原创 多模态系列-综述MM-LLMs: Recent Advances in MultiModal Large Language Models
在过去的一年中,多模态大型语言模型(MM-LLMs)取得了实质性的进展,通过高效的训练策略,增强了现成的语言模型,以支持多模态输入或输出。由此产生的模型不仅保留了语言模型的固有推理和决策能力,还赋予了多样化的多模态任务。在本文中,我们提供了一份旨在促进进一步研究多模态大型语言模型的综合调查。首先,我们概述了模型架构和训练流程的一般设计公式。随后,我们介绍了一个包含122个多模态大型语言模型的分类体系,每个模型都具有其特定的公式。
2024-03-28 10:14:09
1622
原创 Open Images V7 数据集介绍
Open Images是由谷歌发布的一个开源图片数据集,在2022年10月份发布了最新的V7版本。这个版本的数据集包含了900多万张图片,都有类别标记。
2024-03-26 15:14:32
3272
原创 PaddleDetection系列2--NCCL安装及测试
我的系统输出为x86_64,代表x86_64架构(或称作 x64、Intel 64、AMD64)架构。安装paddle 环境,使用多卡训练,需要安装NCCL,注意,需要先安装NCCL,再安装paddle。进入python 环境,输入如下命令以及提示信息,证明nccl已安装成功,可以多卡训练。查找能够支持的版本,最终选择2.3.2版本paddle,安装命令如下。paddle对CUDA 11.1支持的版本比较少,因此先进入。安装后输出如下信息证明安装成功。输出上面信息证明测试成功。提示如下,证明安装成功。
2023-12-09 15:11:57
2254
原创 Pytorch常用函数
torch.transpose(input, dim0, dim1, out=None) → Tensor,返回输入矩阵input的转置。torch.unsqueeze(input, dim, out=None),squeeze的逆操作,返回一个新的张量,对输入的指定位置插入维度 1。如果输入是一个跨步张量,则结果张量与输入张量共享其底层存储,因此更改其中一个的内容将更改另一个的内容。如果输入是一个稀疏张量,则结果张量不与输入张量共享底层存储。tensor (Tensor) – 输入张量。
2023-10-31 18:54:24
676
原创 transformer系列5---transformer显存占用分析
模型训练框架:例如pytorch框架的cuda context会占用大约几百MB显存,与版本有关;模型参数大小,比如7B的模型以FP16格式要占用14GB显存;
2023-10-08 17:57:08
2317
原创 transformer系列4---transformer结构计算量统计
假设Transformer的输入每个词向量维度d_model(d) ,词表大小为vocab_size(v),输入句子最大长度为src_max_len(s),batchsize为 batch(b),head头数为head(h)。矩阵乘法的输入形状[b, h, s, d] × [b, h, s, d],输出形状为 [b, h, s, s],h维度是concat,没有计算量,因此该步骤的计算量为。矩阵乘法输入形状为[b, s, d] × [d, v],输出形状为[b, s, v],计算量。
2023-10-03 08:08:56
1934
3
原创 transformer系列3---transformer结构参数量统计
NLP算法会使用不同的分词方法表示所有单词,确定分词方法之后,首先建立一个词表,词表的维度是词总数vocab_size ×表示每个词向量维度d_model(论文中dmodel默认值512),这是一个非常稀疏的矩阵。由两个线性层组成,W1维度是(dmodel,4×dmodel),b1维度是4×dmodel,W2维度是(4×dmodel,dmodel),b2维度是dmodel,参数量为 dmodel×4×dmodel+4×dmodel+4×dmodel×dmodel+dmodel =因此,位置编码的参数量=
2023-09-26 19:50:30
1175
原创 transformer系列2---transformer架构详细解析
整数编码:用一种数字来代表一个词one-hot 编码:用一个序列向量表示一个词,该向量只有词汇表中表示这个单词的位置是1,其余都是0,序列向量长度是预定义的词汇表中单词数量。word embedding 词嵌入编码:将词映射或者嵌入(Embedding)到另一个数值向量空间(常常存在降维),它以one hot的稀疏矩阵为输入,经过一个线性变换(查表)将其转换成一个密集矩阵的过程。Embedding的原理是使用矩阵乘法来进行降维,节约存储空间。
2023-09-21 11:12:18
605
原创 transformer系列1---Attention Is All You Need全文详细翻译
主流的序列转换模型基于复杂的循环或卷积神经网络,包括编码器和解码器。性能最佳的模型还会通过注意机制连接编码器和解码器。我们提出了一种新的简单网络架构,Transformer,仅基于注意机制,完全不需要循环和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优越,同时更易并行化,训练时间显著减少。我们的模型在WMT 2014英德翻译任务上达到了28.4 BLEU,相比现有最佳结果(包括集成模型),提高了2 BLEU以上。
2023-09-20 16:37:03
778
原创 transformer位置编码最详细的解析
这种方法的问题是,不仅值可能变得非常大,而且我们的模型可能面临比训练中的句子更长的句子。此外,我们的模型可能不会看到具有特定长度的任何样本,这会影响我们模型的泛化能力。由于Transformer中的嵌入是从头开始训练的,参数可能设置为词的语义不会存储在前几个维度中,以避免干扰位置编码。由于句子中的每个词语同时通过Transformer的编码器/解码器堆栈,模型本身对于每个词语的位置/顺序没有任何概念。为了使模型具有一定的顺序感,一种可能的解决方案是为每个词语添加关于其在句子中位置的信息。
2023-09-05 15:32:53
1152
原创 NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.问题解决
DKMS全称是Dynamic Kernel Module Support,它可以帮我们维护内核外的这些驱动程序,在内核版本变动之后可以自动重新生成新的模块。这是因为电脑重启自动更新,linux内核升级,之前的nvidia驱动无法正确匹配连接。在使用dkms之前首先需要确保系统中已经安装了 DKMS。4. 输入nvidia-smi检查可以显示显卡信息。注意将450.80.02换成自己的版本。
2023-07-21 12:46:07
10760
1
原创 modelscope 多模态环境配置及问题解决
如果需要进一步具体使用ModelScope平台上承载的,包括多模态,NLP,CV,语音等不同领域的模型,来进行模型推理以及模型训练、微调等能力,则需要安装各个领域上不同的依赖。适合本地开发调试使用,修改源码后可以直接执行。安装成功后,即可使用对应领域模型进行推理,训练等操作。安装完成后,执行如下命令为modelscope library创建对应的python环境。如下图,根据自己的机器环境和CUDA版本选择,我的环境是Ubuntu系统,CUDA是10.2,因此选择下面红框的命令安装。
2023-07-21 12:32:07
5264
原创 多模态系列论文--VLMO 详细解析
4. 多模态的训练数据集不够多,但是在单模态里,就是视觉或者NLP里,可用的数据很多,基于这个研究动机,VLMo的作者提出了stagewise pre-training strategy,就是分阶段去训练,先把vision expert在视觉数据集这边训好,再把language expert在language的数据集上训好,这个时候模型本身的参数非常好的被初始化了,再到多模态的数据上做pre-training,效果就会好很多。另一个是训练方式的改进,做的分阶段的模型预训练。
2023-07-17 12:55:11
2243
1
原创 多模态系列论文--ALBEF 详细解析
最近图像文本的大规模的特征学习非常火爆,大部分已有的方法都是用一个Transformer模型作为多模态的一个编码器,同时编码视觉的Token和文本的Token,视觉Token就是视觉特征,一般是region-based的图像特征。
2023-07-15 18:17:11
8519
1
原创 多模态系列论文--CoCa 详细解析
CoCa代表Contrastive Captioners的缩写,代表模型用两个目标函数训练出来的,一个是Contrastive Loss,一个是Captioning Loss。本文因为数据集更大,模型也更大,所以它的效果很好,在多模态所有的任务均SOTA,而且在单模态里,在ImageNet上也得到了90以上的Top1准确度,在视频动作识别领域,在Paper with Code上CoCa在K400、K600、K700这些数据集上排名前三。
2023-07-08 15:19:51
3806
原创 多模态系列论文--BEiT-3 详细解析
BEITv3其实从方法上来说就是之前BEIT、BEITv2、VLBEIT、VLMO等一系列的工作的一个集合体,本身没有提出新的内容,主要就是把它做大做强,展示了一个Unified Framework能达到的性能。BEiTv3的目标非常明确,就是想做一个更大一统的框架,不论是从模型上统一,而且从训练的目标函数上要统一,还有模型大小,数据集大小,如何scale也要统一,作者称之为Big Convergence。
2023-07-08 14:15:07
4176
1
原创 多模态系列论文--BLIP 详细解析
所以作者用生成的文本充当新的训练数据集,具体的,作者在coco数据集上把已经训练好的image grounded text decoder又微调了一下,得到了captioner,然后给定任意一张从网上爬下的图片,用这个captioner给这个图片生成新的字幕,也就是红色这里的ts,经过filter筛选后,添加到数据集中,它是synthetic data。(Ih,Th)是手工标注的Coco数据集。这样就用统一的一个模型,即训练的时候是一个模型,推理的时候可以根据不同的任务选择这个模型中的某一部分去做推理。
2023-07-08 10:57:37
3022
原创 多模态系列论文--CLIP 详细解析
现在最先进的视觉系统都是预先定义好的一些物体类别标签的集合,模型学习预测这些预定义的类别从而完成模型的训练,但有限制性的监督信号也限制了模型本身的泛化性,尤其是需要识别新物体类别的时候,都要去收集新的数据训练新的模型。直接从自然语言文本里去得到一些监督信号是一个非常有前途的办法。本文爬取了一个4个亿的图片文本配对的数据集,选择一种自监督的训练方式,利用文本的监督信号训练一个迁移能力强的视觉模型(zero shot模型),证实了用一个非常简单的预训练的任务,就可以高效且可扩展的学习一些最好的图像的表征。
2023-06-28 14:17:10
3045
原创 DETR系列:RT-DETR实战部署
上篇文章介绍RT-detr的论文内容(),本篇文章介绍算法复现、tensorRT加速、python调用部署、训练等方法。
2023-06-26 20:00:19
5623
10
原创 DETR系列:RT-DETR(一) 论文解析
实时目标检测(Real-Time Object Detection )过去一直由 YOLO 系列模型主导。YOLO 检测器有个较大的待改进点是需要 NMS 后处理,其通常难以优化且不够鲁棒,因此检测器的速度存在延迟。2020年DETR算法诞生,Detr是第一个基于transformer的端到端算法,没有anchor前处理和NMS后处理,但是Detr收敛慢,训练慢,推理也慢,尽管后续的优化算法不断加快收敛速度,提升推理速度,但仍然无法实现实时要求。
2023-06-26 19:39:10
22269
3
原创 论文阅读:Learning to Enhance Low-Light Image via Zero-Reference Deep Curve Estimation
Zero-DCE可以在加速同时兼顾图像增强的效果,并且提供多种选择来平衡性能和计算代价问题。优点1:训练数据简单,不需要任何成对和不成对的数据,算法通过网络进行曲线估计并且计算一系列无参考的损失函数实现。优点2:网络参数少,速度快
2023-02-24 16:32:50
619
1
原创 Ubuntu系统 软件安装报错:Could not get lock /var/lib/dpkg/lock-frontend - open解决方法
Ubuntu系统 软件安装报错:Could not get lock /var/lib/dpkg/lock-frontend - open解决方法
2022-09-28 10:26:21
2207
1
原创 linux下pythorch训练yoloV5模型转换为tensorRT模型
linux下pythorch训练yoloV5模型转换为tensorRT模型
2022-08-30 17:14:22
838
原创 scp 文件传输命令详解
scp(secure copy)是一个基于 SSH 协议在网络之间进行安全传输的命令,本文介绍传输的常用配置和实际例子
2022-07-16 08:11:33
20954
原创 CUDA on Platform 学习笔记5--错误检测与事件
本文介绍CUDA运行时的错误检测函数,如何使用错误检测函数,以及利用CUDA的event进行计时
2022-07-08 14:42:54
873
python爬虫基础知识+爬虫实例,用于爬取网页的图片,实测可以直接使用
2024-03-28
目标检测+YOLOv5 融合WassersteinDistanceLoss代码,有效提升小目标检测准确性
2024-03-28
python爬虫基础知识、爬虫实例
2023-12-09
CV+NLP+TRANSFORMER,huggingface入门资料
2023-12-09
JAVA+面试常见问题及答案,准备这些面试题可以帮助应聘者更好地理解Java,提高面试成功的可能性
2023-10-07
前端+vue+面试常见问题
2023-09-24
rtdetr-hgnetv2-l-6x-coco.pdparams
2023-06-28
rt-detr目标检测+python+tensorRT推理代码
2023-06-28
rknn-toolkit-1.7.1的torch安装包
2022-09-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人