CV温故知新-优快云博客

原创【无标题】

2）尽量减少模型参数修改，例如冻结大部分参数，仅训练部分层和参数；或者训练时候设置较低的学习率，较少的迭代步骤等。finue-tuning的一个常见问题是：微调的任务能力提升，但是原有的能力下降，泛化性变弱，也就是遗忘问题（catastrophic forgetting）2）占用输入token的长度，会导致留给实际输入的长度变少，影响输入描述。3）泛化性可能会变弱，模型会尽可能拟合example的结果。1）加入通用数据，或者训练感兴趣能力的数据，保持原有能力。4）使用多任务学习，同时学习需求的任务。

2024-04-20 19:41:51 252

原创多模态系列-综述Video Understanding with Large Language Models: A Survey

随着在线视频平台的蓬勃发展和视频内容量的急剧增长，对高效视频理解工具的需求显著增强。鉴于大型语言模型（LLMs）在语言和多模态任务中展现出的强大功能，本综述详细梳理了利用LLMs进行视频理解领域研究的最新进展，特别是在视频理解大型语言模型（Vid-LLMs）方面的突破。Vid-LLMs展现出的新兴能力极为先进，特别是其结合常识知识进行开放性时空推理的能力，预示着未来视频理解的一个极具潜力的发展路径。

2024-04-03 14:30:30 1779

原创多模态系列-综述MM-LLMs: Recent Advances in MultiModal Large Language Models

在过去的一年中，多模态大型语言模型（MM-LLMs）取得了实质性的进展，通过高效的训练策略，增强了现成的语言模型，以支持多模态输入或输出。由此产生的模型不仅保留了语言模型的固有推理和决策能力，还赋予了多样化的多模态任务。在本文中，我们提供了一份旨在促进进一步研究多模态大型语言模型的综合调查。首先，我们概述了模型架构和训练流程的一般设计公式。随后，我们介绍了一个包含122个多模态大型语言模型的分类体系，每个模型都具有其特定的公式。

2024-03-28 10:14:09 1622

原创 Open Images V7 数据集介绍

Open Images是由谷歌发布的一个开源图片数据集，在2022年10月份发布了最新的V7版本。这个版本的数据集包含了900多万张图片，都有类别标记。

2024-03-26 15:14:32 3272

原创 PaddleDetection系列2--NCCL安装及测试

我的系统输出为x86_64，代表x86_64架构（或称作 x64、Intel 64、AMD64）架构。安装paddle 环境，使用多卡训练，需要安装NCCL，注意，需要先安装NCCL，再安装paddle。进入python 环境，输入如下命令以及提示信息，证明nccl已安装成功，可以多卡训练。查找能够支持的版本，最终选择2.3.2版本paddle，安装命令如下。paddle对CUDA 11.1支持的版本比较少，因此先进入。安装后输出如下信息证明安装成功。输出上面信息证明测试成功。提示如下，证明安装成功。

2023-12-09 15:11:57 2254

原创 Pytorch常用函数

torch.transpose(input, dim0, dim1, out=None) → Tensor,返回输入矩阵input的转置。torch.unsqueeze(input, dim, out=None)，squeeze的逆操作,返回一个新的张量，对输入的指定位置插入维度 1。如果输入是一个跨步张量，则结果张量与输入张量共享其底层存储，因此更改其中一个的内容将更改另一个的内容。如果输入是一个稀疏张量，则结果张量不与输入张量共享底层存储。tensor (Tensor) – 输入张量。

2023-10-31 18:54:24 676

原创 transformer系列5---transformer显存占用分析

模型训练框架：例如pytorch框架的cuda context会占用大约几百MB显存，与版本有关；模型参数大小，比如7B的模型以FP16格式要占用14GB显存；

2023-10-08 17:57:08 2317

原创 transformer系列4---transformer结构计算量统计

假设Transformer的输入每个词向量维度d_model(d) ，词表大小为vocab_size(v)，输入句子最大长度为src_max_len(s)，batchsize为 batch(b)，head头数为head(h)。矩阵乘法的输入形状[b, h, s, d] × [b, h, s, d]，输出形状为 [b, h, s, s]，h维度是concat，没有计算量，因此该步骤的计算量为。矩阵乘法输入形状为[b, s, d] × [d, v]，输出形状为[b, s, v]，计算量。

2023-10-03 08:08:56 1934 3

原创 transformer系列3---transformer结构参数量统计

NLP算法会使用不同的分词方法表示所有单词，确定分词方法之后，首先建立一个词表，词表的维度是词总数vocab_size ×表示每个词向量维度d_model（论文中dmodel默认值512），这是一个非常稀疏的矩阵。由两个线性层组成，W1维度是（dmodel，4×dmodel），b1维度是4×dmodel，W2维度是（4×dmodel，dmodel），b2维度是dmodel，参数量为 dmodel×4×dmodel+4×dmodel+4×dmodel×dmodel+dmodel =因此，位置编码的参数量=

2023-09-26 19:50:30 1175

原创 transformer系列2---transformer架构详细解析

整数编码：用一种数字来代表一个词one-hot 编码：用一个序列向量表示一个词，该向量只有词汇表中表示这个单词的位置是1，其余都是0，序列向量长度是预定义的词汇表中单词数量。word embedding 词嵌入编码：将词映射或者嵌入（Embedding）到另一个数值向量空间（常常存在降维），它以one hot的稀疏矩阵为输入，经过一个线性变换（查表）将其转换成一个密集矩阵的过程。Embedding的原理是使用矩阵乘法来进行降维，节约存储空间。

2023-09-21 11:12:18 605

原创 transformer系列1---Attention Is All You Need全文详细翻译

主流的序列转换模型基于复杂的循环或卷积神经网络，包括编码器和解码器。性能最佳的模型还会通过注意机制连接编码器和解码器。我们提出了一种新的简单网络架构，Transformer，仅基于注意机制，完全不需要循环和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更优越，同时更易并行化，训练时间显著减少。我们的模型在WMT 2014英德翻译任务上达到了28.4 BLEU，相比现有最佳结果（包括集成模型），提高了2 BLEU以上。

2023-09-20 16:37:03 778

原创 transformer位置编码最详细的解析

这种方法的问题是，不仅值可能变得非常大，而且我们的模型可能面临比训练中的句子更长的句子。此外，我们的模型可能不会看到具有特定长度的任何样本，这会影响我们模型的泛化能力。由于Transformer中的嵌入是从头开始训练的，参数可能设置为词的语义不会存储在前几个维度中，以避免干扰位置编码。由于句子中的每个词语同时通过Transformer的编码器/解码器堆栈，模型本身对于每个词语的位置/顺序没有任何概念。为了使模型具有一定的顺序感，一种可能的解决方案是为每个词语添加关于其在句子中位置的信息。

2023-09-05 15:32:53 1152

原创 NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.问题解决

DKMS全称是Dynamic Kernel Module Support，它可以帮我们维护内核外的这些驱动程序，在内核版本变动之后可以自动重新生成新的模块。这是因为电脑重启自动更新，linux内核升级，之前的nvidia驱动无法正确匹配连接。在使用dkms之前首先需要确保系统中已经安装了 DKMS。4. 输入nvidia-smi检查可以显示显卡信息。注意将450.80.02换成自己的版本。

2023-07-21 12:46:07 10760 1

原创 modelscope 多模态环境配置及问题解决

如果需要进一步具体使用ModelScope平台上承载的，包括多模态，NLP，CV，语音等不同领域的模型，来进行模型推理以及模型训练、微调等能力，则需要安装各个领域上不同的依赖。适合本地开发调试使用，修改源码后可以直接执行。安装成功后，即可使用对应领域模型进行推理，训练等操作。安装完成后，执行如下命令为modelscope library创建对应的python环境。如下图，根据自己的机器环境和CUDA版本选择，我的环境是Ubuntu系统，CUDA是10.2,因此选择下面红框的命令安装。

2023-07-21 12:32:07 5264

原创多模态系列论文--VLMO 详细解析

4. 多模态的训练数据集不够多，但是在单模态里，就是视觉或者NLP里，可用的数据很多，基于这个研究动机，VLMo的作者提出了stagewise pre-training strategy，就是分阶段去训练，先把vision expert在视觉数据集这边训好，再把language expert在language的数据集上训好，这个时候模型本身的参数非常好的被初始化了，再到多模态的数据上做pre-training，效果就会好很多。另一个是训练方式的改进，做的分阶段的模型预训练。

2023-07-17 12:55:11 2243 1

原创多模态系列论文--ALBEF 详细解析

最近图像文本的大规模的特征学习非常火爆，大部分已有的方法都是用一个Transformer模型作为多模态的一个编码器，同时编码视觉的Token和文本的Token，视觉Token就是视觉特征，一般是region-based的图像特征。

2023-07-15 18:17:11 8519 1

原创多模态系列论文--CoCa 详细解析

CoCa代表Contrastive Captioners的缩写，代表模型用两个目标函数训练出来的，一个是Contrastive Loss，一个是Captioning Loss。本文因为数据集更大，模型也更大，所以它的效果很好，在多模态所有的任务均SOTA，而且在单模态里，在ImageNet上也得到了90以上的Top1准确度，在视频动作识别领域，在Paper with Code上CoCa在K400、K600、K700这些数据集上排名前三。

2023-07-08 15:19:51 3806

原创多模态系列论文----最详细的多模态论文总结（BLIP、BEIT、CoCa等）

最详细的多模态论文总结

2023-07-08 14:42:01 1823

原创多模态系列论文--BEiT-3 详细解析

BEITv3其实从方法上来说就是之前BEIT、BEITv2、VLBEIT、VLMO等一系列的工作的一个集合体，本身没有提出新的内容，主要就是把它做大做强，展示了一个Unified Framework能达到的性能。BEiTv3的目标非常明确，就是想做一个更大一统的框架，不论是从模型上统一，而且从训练的目标函数上要统一，还有模型大小，数据集大小，如何scale也要统一，作者称之为Big Convergence。

2023-07-08 14:15:07 4176 1

原创多模态系列论文--BLIP 详细解析

所以作者用生成的文本充当新的训练数据集，具体的，作者在coco数据集上把已经训练好的image grounded text decoder又微调了一下，得到了captioner，然后给定任意一张从网上爬下的图片，用这个captioner给这个图片生成新的字幕，也就是红色这里的ts，经过filter筛选后，添加到数据集中，它是synthetic data。（Ih，Th）是手工标注的Coco数据集。这样就用统一的一个模型，即训练的时候是一个模型，推理的时候可以根据不同的任务选择这个模型中的某一部分去做推理。

2023-07-08 10:57:37 3022

原创多模态系列论文--CLIP 详细解析

现在最先进的视觉系统都是预先定义好的一些物体类别标签的集合，模型学习预测这些预定义的类别从而完成模型的训练，但有限制性的监督信号也限制了模型本身的泛化性，尤其是需要识别新物体类别的时候，都要去收集新的数据训练新的模型。直接从自然语言文本里去得到一些监督信号是一个非常有前途的办法。本文爬取了一个4个亿的图片文本配对的数据集，选择一种自监督的训练方式，利用文本的监督信号训练一个迁移能力强的视觉模型（zero shot模型），证实了用一个非常简单的预训练的任务，就可以高效且可扩展的学习一些最好的图像的表征。

2023-06-28 14:17:10 3045

原创 DETR系列：RT-DETR实战部署

上篇文章介绍RT-detr的论文内容（），本篇文章介绍算法复现、tensorRT加速、python调用部署、训练等方法。

2023-06-26 20:00:19 5623 10

原创 DETR系列：RT-DETR（一）论文解析

实时目标检测(Real-Time Object Detection )过去一直由 YOLO 系列模型主导。YOLO 检测器有个较大的待改进点是需要 NMS 后处理，其通常难以优化且不够鲁棒，因此检测器的速度存在延迟。2020年DETR算法诞生，Detr是第一个基于transformer的端到端算法，没有anchor前处理和NMS后处理，但是Detr收敛慢，训练慢，推理也慢，尽管后续的优化算法不断加快收敛速度，提升推理速度，但仍然无法实现实时要求。

2023-06-26 19:39:10 22269 3

原创论文阅读：Learning to Enhance Low-Light Image via Zero-Reference Deep Curve Estimation

Zero-DCE可以在加速同时兼顾图像增强的效果，并且提供多种选择来平衡性能和计算代价问题。优点1：训练数据简单，不需要任何成对和不成对的数据，算法通过网络进行曲线估计并且计算一系列无参考的损失函数实现。优点2：网络参数少，速度快

2023-02-24 16:32:50 619 1

原创使用gtest和lcov测试代码覆盖率

使用gtest和lcov测试代码覆盖率

2022-11-02 14:58:41 5058

原创 ubuntu 下C++程序利用Valgrind工具调试内存问题

ubuntu 下C++程序利用Valgrind工具调试内存问题

2022-10-19 13:40:09 624

原创 Ubuntu服务器端与客户端(RV1126)配置NFS实现文件夹共享

Ubuntu服务器端与客户端(RV1126)配置NFS实现文件夹共享

2022-10-10 14:23:31 1085 1

原创 Ubuntu系统软件安装报错：Could not get lock /var/lib/dpkg/lock-frontend - open解决方法

Ubuntu系统软件安装报错：Could not get lock /var/lib/dpkg/lock-frontend - open解决方法

2022-09-28 10:26:21 2207 1

原创 PP-YOLOE论文解析

PP-YOLOE论文解析

2022-09-15 12:38:38 1343

原创 Linux常用命令总结

Linux常用命令总结

2022-09-06 10:48:52 251

原创 Linux下命令查看区分ubuntu、centos操作系统

Linux下命令查看区分ubuntu、centos操作系统

2022-09-02 18:04:07 815

原创 CmakeList文件常见命令含义和用法

CmakeList文件常见命令含义和用法

2022-09-01 14:56:01 1458

原创 linux下pythorch训练yoloV5模型转换为tensorRT模型

linux下pythorch训练yoloV5模型转换为tensorRT模型

2022-08-30 17:14:22 838

原创 conda相关命令介绍

ubuntu系统conda添加镜像源

2022-08-25 12:24:23 186

原创 PaddleDetection系列1--paddlepaddle安装及测试

paddlepaddle在windows和ubuntu安装及测试

2022-08-19 15:41:05 2775

原创 Linux查看CPU、GPU内存使用

Linux查看CPU、GPU内存使用方法

2022-08-04 12:12:39 8410

原创 CUDA on Platform 学习笔记1--GPU硬件架构

GPU硬件架构简介

2022-07-16 22:12:00 809

原创 scp 文件传输命令详解

scp（secure copy）是一个基于 SSH 协议在网络之间进行安全传输的命令，本文介绍传输的常用配置和实际例子

2022-07-16 08:11:33 20954

原创 CUDA on Platform 学习笔记6--多种CUDA存储单元

本文介绍CUDA多种存储单元的使用和区别

2022-07-10 21:20:02 493

原创 CUDA on Platform 学习笔记5--错误检测与事件

本文介绍CUDA运行时的错误检测函数，如何使用错误检测函数，以及利用CUDA的event进行计时

2022-07-08 14:42:54 873

python爬虫基础知识+爬虫实例，用于爬取网页的图片，实测可以直接使用

Python爬虫是指使用Python编写的程序，用于自动化地从互联网上获取数据。爬虫可以模拟人的行为，访问网页、提取数据、保存数据等操作。文档中是一个简单的Python爬虫示例，用于爬取百度图片中吸烟相关的数据，实测有效，希望对大家有帮助

2024-03-28

目标检测+YOLOv5 融合WassersteinDistanceLoss代码，有效提升小目标检测准确性

目标检测是计算机视觉领域的一个重要任务，而YOLOv5是目标检测算法中的一种。为了提高小目标检测的准确性，可以将YOLOv5与Wasserstein Distance Loss相结合。 YOLOv5是一种基于深度学习的目标检测算法，它通过将图像划分为网格，并在每个网格中预测目标的边界框和类别信息。然而，由于小目标的尺寸较小，往往容易被忽略或者误判。为了解决这个问题，可以引入Wasserstein Distance Loss。 Wasserstein Distance Loss是一种用于度量两个概率分布之间差异的损失函数。在目标检测中，可以将其应用于小目标的检测。通过最小化目标检测结果与真实标签之间的Wasserstein距离，可以使得模型更加关注小目标的检测，从而提高准确性。

2024-03-28

python爬虫基础知识、爬虫实例

Python爬虫是一种强大的技术，可以帮助我们自动化获取互联网上的信息。通过掌握爬虫的基础知识和实践，我们可以编写出各种有用的爬虫程序。希望本资源对您有所帮助

2023-12-09

CV+NLP+TRANSFORMER,huggingface入门资料

huggingface官方介绍代码，包含已集成的大量模型介绍，对于新手学习huggingface，了解入门大模型非常有用，欢迎大家下载学习，希望通过该材料，您能快速掌握大模型复现调方法，希望对您有所帮助

2023-12-09

JAVA+面试常见问题及答案，准备这些面试题可以帮助应聘者更好地理解Java，提高面试成功的可能性

这份资料是JAVA面试常见问题及答案，准备这些面试题可以帮助大家更好地理解Java，加深大家对Java语言的理解和应用能力，提高面试成功的可能性。欢迎大家下载查看，希望对大家有帮助，面试成功

2023-10-07

前端+vue+面试常见问题

在当今的技术领域，前端开发已经成为了一个热门的职业领域。而在这个领域中，Vue.js作为一种广泛使用的前端开发框架，对于开发者来说具有重要的价值。然而，对于正在寻找前端开发工作或者准备面试的人来说，理解并能够解答关于Vue.js和前端开发的常见问题是非常重要的。本文将为你提供一些常见的面试问题，并提供详细的答案和解释，帮助你更好地理解和掌握这些问题。我们将会涵盖Vue.js的基本概念、常用功能、最佳实践以及与其他前端框架的比较等内容。无论你是刚开始学习前端开发，还是已经有一定经验的开发者，这篇文章都将为你提供有价值的参考信息。

2023-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

python爬虫基础知识+爬虫实例，用于爬取网页的图片，实测可以直接使用

目标检测+YOLOv5 融合WassersteinDistanceLoss代码，有效提升小目标检测准确性

python爬虫基础知识、爬虫实例

CV+NLP+TRANSFORMER,huggingface入门资料

JAVA+面试常见问题及答案，准备这些面试题可以帮助应聘者更好地理解Java，提高面试成功的可能性

前端+vue+面试常见问题

多模态+大模型+学习笔记

mysql面试题目2023

rtdetr-hgnetv2-l-6x-coco.pdparams

目标检测+PaddleDetection+rt-detr运行代码

rt-detr目标检测+python+tensorRT推理代码

rknn-toolkit-1.7.1的torch安装包

空空如也