
pytorch
文章平均质量分 92
Keep_Trying_Go
无
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文 Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation详解(PyTorch)
前面我们已经讲过了两篇论文关于人群计数的无监督算法,其中一篇是基于人群计数符合自然幂律分布,而另外一篇是基于CLIP的无监督算法,充分利用了CLIP的泛化性能。而本文要讲的是关于语义分割领域的一篇基于CLIP的无监督算法,但是这篇算法的理解不是太容易,因此需要花较多的时间去阅读和理解。原创 2025-05-27 14:15:18 · 865 阅读 · 0 评论 -
论文 Completely Self-Supervised Crowd Counting via Distribution Matching无监督算法详解
今天讲解的这篇论文属于无监督方面的算法点,其中的算法理解不是太容易,并且涉及的算法点也比较多,所以需要花较多的时间去理解和阅读。上一次我们讲过基于CLIP的无监督人群计数CrowdCLIP算法,那篇论文算法理解起来更加容易一点,并且代码实现方面理解起来也更加容易一点,因此也希望大家可以看一下那篇论文。原创 2025-05-23 12:05:36 · 1160 阅读 · 0 评论 -
PyTorch Lightning教程就看这篇(视频教程 + 文字教程)
简介:PyTorch Lightning 是一个基于 PyTorch 的高级深度学习框架,旨在将科研代码的灵活性与工程化最佳实践结合,通过标准化训练流程大幅减少模板代码。其中,继承LightningModule之后,可以很方便的把自己的训练过程,验证以及测试过程都给集成起来,包括优化器的配置等函数,可以比较容易的进行配置和训练。定义Trainer之后,结合继承至LightningModule对象,就可以实现完整的训练了(除了一些额外的配置之外)。这个视频和文字教程就是想让大家快速的上手PyTorch Lig原创 2025-05-20 19:06:35 · 949 阅读 · 0 评论 -
论文Chinese-CLIP(图像-中文版的Contrastive Vision-Language Pretraining in Chinese)详解(PyTorch代码)
虽然基于“图像-英文”的CLIP在很多下游任务中得到广泛的应用,但是毕竟是国外(OpenAi)公司做出来的,因此如果直接将CLIP应用到“图像-中文”上的话效果比较差,为了能更好的应用中文的图文检索其实是非常好的,针对中文训练一个Chinese-CLIP。虽然Chinese-CLIP很大程度上还是基于CLIP来做的,但是其中涉及的知识点还是应该讲一下的,具体做了什么以及源码训练以及模型是具体怎么实现的,这也很重要。了解Chinese-CLIP对于后期的应用到自己的任务具有很大的优势。原创 2025-05-17 15:06:18 · 1026 阅读 · 0 评论 -
论文Visual Prompt Tune(视觉提示微调)详解
还记得我们之前讲的“CLIP-Count(基于文本指导的零样本目标计数)”论文的内容吗,如果看过的小伙伴应该知道CLIP-Count论文的作者就使用到了“Visual Prompt Tune”方法训练模型。我们今天来看这篇论文也是因为CLIP-Count提到了这一点。如果迁移微调的模型比较大的话,是不是也可以尝试采用“visual prompt tune”呢,关于这一点大家可以去尝试一下。同样,《Visual Prompt Tune》这篇论文的作者也是认为当前基于模型的全微调对于参数量大的模型并不好,不仅原创 2025-05-15 14:40:13 · 777 阅读 · 0 评论 -
论文VQ-VAE-2(Generating Diverse High-Fidelity Images with VQ-VAE-2)详解(PyTorch)
前面我们已经讲过了关于VQ-VAE的原始论文,其中主要是采用一种离散隐变量的自编码方法,通过向量量化(Vector Quantization, VQ) 实现隐空间的离散化,从而提升表征的可解释性和生成质量。正是VQ-VAE在大规模的模型当中得到应用,也证明了它的成功。原创 2025-05-14 15:29:20 · 975 阅读 · 0 评论 -
论文CLIP-Count(基于文本指导的零样本目标计数)详解(PyTorch)
前面我们已经讲过了关于基于CLIP的人群统计两篇文章,也希望读者可以去看前面两篇文章,因为这对于学习CLIP在计数方面具有很好的启发。前面两篇文章主要是从有监督和无监督两方面来进行研究的,而这篇文章也可以说是从无监督的方面来进行研究的,不同的是这篇文章不仅仅是针对人群计数,主要是面对所有的目标,通过文本指定要统计的目标达到效果(零样本计数)。原创 2025-05-13 09:42:04 · 792 阅读 · 0 评论 -
Reference-less Counting,Zero-shot Counting,Few-shot Counting,单域泛化以及域自适应之间的区别?
之所以这里会着重区分“Reference-less Counting,Zero-shot Counting,Few-shot Counting,单元域泛化以及域自适应”这个五个概念的区别,是因为真的很重要。我们在学习的过程中经常容易把这些问题给搞混淆,而恰恰这些概念又是非常重要的,那么我们在给被人讲述,写东西或者自己看论文的时候也容易犯糊涂。因此,这篇博文着重把这几个概念加入进来,当然,最后,我们也会探讨“全监督,半监督,开发世界识别和开发词汇识别”。原创 2025-05-12 15:29:53 · 942 阅读 · 0 评论 -
开源项目minGPT应用案例详解(PyTorch)
minGPT 是GPT的 PyTorch 重新实现,包含训练和推理功能。minGPT 力求精简、简洁、可解释且具有教育意义,因为目前大多数 GPT 模型实现可能略显臃肿。GPT 并非一个复杂的模型,该实现大约有 300 行代码。其工作原理是将一系列索引输入到Transformer中,然后得出序列中下一个索引的概率分布。其复杂性主要体现在巧妙地进行批处理(跨样本和跨序列长度),以提高效率。重写的nanoGPT,从单纯的教育导向转向一个仍然简单易行但又有实际意义的东西。原创 2025-05-11 12:45:05 · 763 阅读 · 0 评论 -
论文CrowdCLIP(基于CLIP的无监督人群计数模型)详解(PyTorch,Pytorch_Lighting)
前面一篇论文我们已经讲过了关于CLIP应用的人群统计算法CLIP-EBC,但是前面一篇论文是从完全监督的角度去考虑并且基于块级分类方向来进行研究的。而本文CrowdCLIP主要是从完全无监督的方向来进行研究的,两篇论文都从不同的角度去提升人群计数模型的性能,采用更新颖的方法做研究,这对于人群统计算法的拓展很有帮助,因为当前的人群统计算法基本把所有能用的算法都用的差不多了,而这两篇论文从其他角度出发探讨问题。原创 2025-05-10 15:41:32 · 820 阅读 · 0 评论 -
论文CLIP-EBC(基于CLIP的人群统计模型)详解
论文《Distribution Matching for Crowd Counting》提出了一种新的人群计数方法,通过使用人群统计损失(CLoss)、最优化传输损失(OTLoss)和总的变化损失(TVLoss)来提高计数准确性。该方法借鉴了DMCount的损失函数,并结合了CLIP预训练对比语言模型。CLIP-EBC是该领域首次将CLIP模型应用于全监督范式的人群计数,不同于之前的CrowdCLIP采用的Zero-shot范式。论文和相关代码可在提供的链接中下载,为进一步研究和应用提供了资源。原创 2025-05-09 17:29:20 · 1013 阅读 · 0 评论 -
论文Neural Discrete Representation Learning(VQ-VAE)详解(PyTorch)
(论文下载链接)之所以将论文,主要是为讲解后面两篇论文做准备,VQ-VAE不管是视频还是博客,都有人在讲解,但是这里也做一个总结,以衔接后面的两篇论文讲解,关于相关的论文比较多,并且其中涉及的数学原理以及推导也比较多,导致我们在阅读VAE方法的时候可能存在较多的困惑,自己在看的过程中也遇到了较多的困惑,但是还是准备做一个总结。原创 2025-04-28 20:20:37 · 1017 阅读 · 0 评论 -
人群计数中常用数据集的总结以及使用方式(Python/PyTorch)
本文主要是对人群计数中常用的数据集的相关介绍以及使用方式,之所以特意的抽时间来写这篇博文,主要是最近发现比较多的小伙伴(刚进入这个领域)在人群计数数据集上容易迷茫。如果一个一个的为大家进行解答的话,还不如直接写一篇文章来更加细致的给大家讲解一下。如果在讲解的过程中有什么不对的地方,还请大家能够指出(ヾ(◍°∇°◍)ノ゙)。悄悄举手:若觉得文章有用,不妨留下一个小赞?原创 2025-04-15 14:19:37 · 857 阅读 · 0 评论 -
视觉语义相似性评估(文本和图像之间的相似性-HDGAN)
前面已经讲过针对图像相似性的不同评估方法初步讲解,首先大家要知道并没有一种方法是,因此大家在使用不同方法对图像相似性进行评估的时候可能得到结果差别比较大,但是这并不就否认某一种方法不行,而是不同方法可能适用的场景不一样,大家在选择方法的时候根据自己的领域常用方法来使用。本文讲述的图像和文本相似性评估主要来自于HDGAN,之所以单独拿出来讲,是因为这一块也挺重要的。通过评价生成图像和对应文本之间的相似性来判断生成图像的效果,从而避免了人工的判断,耗时等操作。原创 2025-02-04 12:36:38 · 492 阅读 · 0 评论 -
数据集Birds/CUB_200_2011,CC3M和COCO用于文本到图像生成的数据细节介绍
———birds/| |——image_encoder200.pth(对应图像编码器)| |——text_encoder200.pth(图像对应文本内容描述的编码器)|——npz/| |——bird_val256_FIDK0.npz(用于模型生成的图像FID的评估)|——text/| │ │ ├── image_001.txt(图像对应的文本描述句子)|——test/| |——class_info.pickle(对应测试集图像的类别信息)原创 2025-01-13 16:02:45 · 902 阅读 · 0 评论 -
评估图像相似性的不同方法(包含代码实现)
文本主要是针对图像相似性的不同评估方法初步讲解,首先大家要知道并没有一种方法是完美的,因此大家在使用不同方法对图像相似性进行评估的时候可能得到结果差别比较大,但是这并不就否认某一种方法不行,而是不同方法可能适用的场景不一样,大家在选择方法的时候根据自己的领域常用方法来使用。图像相似性评估方法代码实现:https://github.com/KeepTryingTo/DeepLearning/tree/main/Text2Image/ImageSimilarityIndex。原创 2025-01-13 14:02:30 · 868 阅读 · 0 评论 -
我真的对anchor-base & anchor-free了解吗?(目标检测算法Faster-RCNN,YOLO系列,SSD,CornerNet,FCOS,EfficientDet等)
在目标检测领域主要分为两阶段和一阶段算法,其中不管是两阶段还是一阶段目标检测算法,其中细分的话,还可以分为anchor-based和anchor-free算法,基于anchor的算法好处是事先得到网格上的box,根据设计的anchor box对gt box进行匹配计算偏移量用于模型回归计算,这样的好处是能让模型快速的收敛,并且检测的效果还不错,在后处理方面主要是通过anchor box对其预测的偏移量进行解码,同时为了消除冗余的box以及重叠的box会设置IOU阈值和置信度阈值得到最终的预测框。原创 2024-12-30 16:03:42 · 1433 阅读 · 0 评论 -
关于YOLOv1~YOLOv3源码汇总
以下是关于YOLOv1~YOLOv3相关源码的汇总,感觉写的还不错,并且自己也做了相关的训练和测试。提供了相关训练之后模型下载地址。原创 2024-11-30 14:23:51 · 1419 阅读 · 0 评论 -
深度学习之Seq2Seq机器翻译模型部署入门 (五),案例实战值得一看(PyTorch,Android Studio,torchscript,optimize_for_mobile)
链接提取码:knu2前面的四篇文章主要是讲解了基于Android系统和不同框架以及不同类型中间表示格式的图像分类,目标检测和图像分割模型部署,这篇文章主要讲解基于序列到序列的机器翻译(seq2seq machine translate)。这篇文章中我们已经讲解了基于transformer的机器翻译,并且将其使用gradio轻量级的框架进行了部署,关于机器翻译的大致推理和训练过程我们之前已经讲解,这篇文章主要讲解seq2seq模型在Android部署实现过程以及注意事项。原创 2024-10-13 12:51:05 · 1080 阅读 · 0 评论 -
深度学习之图像和目标检测模型基于pnnx工具转ncnn部署于Android入门 (四),案例实战值得一看(PyTorch,Android Studio,NCNN,PNNX)
使用第三方库来做 PyTorch 部署优势,一个最主要的优势就是可以在你的目标平台上获得最快的推理速度,TensorRT 在 NVIDIA 的 GPU 上最快,OpenVINO 在 Intel 的 CPU 上最快,那比如可能 ncnn 或者 TNN 在手机端 CPU 会更快一点。随着Android studio的更新,同时为了了解不同领域模型的部署以及给大家讲解代码的实现,因此通过写博文和视频讲解,更加细致地给大家讲解其中会遇到哪些难点以及需要避免的问题。汇编级优化,充分利用硬件资源,提供极快的计算速度。原创 2024-10-10 12:01:34 · 1027 阅读 · 0 评论 -
FCN图像分割和QT 6.6.0 加载分割FCN_Resnet50.ONNX模型文件进行图像分割(过程详解)
最终库版本选择qt==6.6.0(不一定是这个版本)本文主要是基于PyTorch官方提供的分割预训练模型转换为ONNX之后应用到QT中,和上一节讲到的在QT中加载目标检测ONNX模型一样,加载ONNX分割模型也需要注意torch版本的问题,在QT中基于OpenCV加载分割的ONNX模型文件,在处理数据以及结果的过程中相对较复杂,还是建议读者先看前几篇博文,再来看本文也许会更好理解。原创 2024-08-18 20:44:40 · 873 阅读 · 0 评论 -
yolov5目标检测和QT 6.6.0 基于OpenCV加载yolov5.onnx模型文件实现目标检测
QT6.6.0加载yolov5的ONNX模型文件进行目标检测目标检测拓展应用两款IP Camera+YOLOV3进行目标检测(手机摄像头作为电脑摄像头使用)使用pytorch实现预训练模型迁移学习中的目标检测使用MobileNet_SSD进行目标检测Opencv实现目标检测目标检测算法(开端)图像分类,图像识别,目标检测之间的区别基于darknet框架+yolov3训练自己的数据集。原创 2024-08-18 18:40:51 · 2172 阅读 · 0 评论 -
PyTorch加载预训练目标检测模型实现物体检测,同时将预训练模型转换为ONNX模型文件(过程详解)
本文主要是直接利用PyTorch官方提供的预训练目标检测模型对物体进行检测,在此之前已经提及使用官方提供的预训练目标检测模型进行迁移训练自己的目标检测模型,这篇文章之所以再次提及主要是更加仔细的对其进行实现以及ONNX模型文件的转换,为后面目标检测模型在QT中基于OpenCV的使用打下基础。原创 2024-08-16 20:33:00 · 921 阅读 · 0 评论 -
PyTorch 训练之后的网络模型.pth转.onnx文件并对图像进行预测
GitHub源码本文主要是基于算法的实现,将训练得到的.pth权重文件转换为ONNX文件,关于ONNX模型文件介绍如下。原创 2024-08-14 14:48:30 · 1740 阅读 · 0 评论 -
Pytorch实现的开源YOLOV3代码使用讲解+API测试+YOLOV3训练(详解)
YOLO。原创 2024-11-25 10:03:57 · 1462 阅读 · 0 评论 -
windows平台使用CMake工具对darknet的编译以及安装过程+yolov3+图像检测+摄像头检测+视频检测+手机作为摄像头进行检测(详解)
windows平台使用CMake工具对darknet的编译以及安装过程+yolov3+图像检测+摄像头检测+视频检测+手机作为摄像头进行检测(详解)原创 2023-05-22 13:43:04 · 2694 阅读 · 3 评论 -
两款IP Camera+YOLOV3进行目标检测(手机摄像头作为电脑摄像头使用)
IP摄像头+YOLOV3进行目标检测(手机摄像头作为电脑摄像头使用)原创 2023-05-21 15:48:49 · 1393 阅读 · 0 评论 -
基于Pytorch框架的目标检测迁移学习和微调训练自己的数据集
基于Pytorch框架的目标检测迁移学习和微调训练自己的数据集原创 2023-04-21 12:00:31 · 1024 阅读 · 4 评论 -
使用pytorch实现预训练模型迁移学习中的目标检测
使用pytorch实现预训练模型迁移学习中的目标检测原创 2023-02-01 09:36:50 · 2338 阅读 · 0 评论 -
使用pytorch实现预训练模型迁移学习中的图像分类
使用pytorch实现预训练模型迁移学习中的图像分类原创 2023-01-09 15:51:11 · 2137 阅读 · 1 评论 -
使用pytorch加载数据集和对数据集进行处理
使用pytorch加载数据集和对数据集进行处理原创 2022-12-30 20:45:27 · 1033 阅读 · 0 评论