- 博客(20)
- 收藏
- 关注
原创 深度学习模型
“ViT-B/32” 指的是 Vision Transformer(ViT)模型中的一个具体配置,下面从其基本概念、模型结构、性能特点、应用场景等方面详细介绍
2025-02-25 15:58:06
186
原创 深度学习数据集
COCO2017 训练数据:http://images.cocodataset.org/zips/train2017.zip。COCO2017测试数据集:http://images.cocodataset.org/zips/test2017.zip。COCO2017验证数据:http://images.cocodataset.org/zips/val2017.zip。可以通过上述地址看到,coco数据集用.arrow格式储存了。需要先安装 datasets库。需要自行获取数据集下载地址。
2025-02-21 17:47:15
904
原创 CLIP学习笔记
通过huggingface dataset接口获取数据集,点击use this dataset。《从自然语言监督中学习可迁移的视觉模型》上述代码会在本地缓存中下载数据集。可以通过解压缩的方式使用数据集。
2025-02-21 16:47:02
696
原创 DALL-E 2
为了利用这些表示进行图像生成,我们提出了一种两阶段模型:首先通过文本标题生成CLIP图像嵌入,然后通过解码器基于该嵌入生成图像。我们的解码器不仅能从CLIP嵌入中还原图像,还能通过扩散模型生成图像变体,保留语义和风格,同时改变非本质细节。- **自回归先验(AR)**:将CLIP嵌入降维后通过Transformer预测离散代码,结合文本条件和CLIP文本嵌入进行训练。通过球面插值在CLIP嵌入空间中混合两幅图像的嵌入,生成风格和内容渐变的图像(如图4)。
2025-02-21 15:18:34
986
原创 学习aigc
该论文是 OpenAI 关于 DALL - E 2 模型的研究成果,它详细阐述了基于 CLIP 潜空间的分层文本条件图像生成方法,如果你想了解图像生成模型的先进技术,这篇论文是很好的参考资料。论文 Hierarchical Text-Conditional Image Generation with CLIP Latents。
2025-02-21 14:22:55
326
原创 transformer学习笔记
【Transformer系列(1)】encoder(编码器)和decoder(解码器)_encoder和decoder的区别-优快云博客【Transformer系列(2)】注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解-优快云博客【Transformer系列(3)】 《Attention Is All You Need》论文超详细解读(翻译+精读)-优快云博客【Transformer系列(4)】Transformer模型结构超详细解读_transformer结构-C
2025-02-09 21:07:27
216
原创 深度学习loss
是 PyTorch 中的一个类,它实现了将 Sigmoid 激活函数和二元交叉熵损失函数合并的功能。这个损失函数接受两个输入:模型的原始输出(未经 Sigmoid 激活)和目标(真实)标签,然后自动计算损失值。由于它在内部集成了 Sigmoid 激活函数,因此可以避免在正向和反向传播过程中可能出现的梯度爆炸或梯度消失问题。是 PyTorch 中一个用于二元分类问题的强大损失函数,它通过结合 Sigmoid 激活函数和二元交叉熵损失函数,提高了训练的效率和数值稳定性。
2024-07-25 19:08:19
2000
原创 pytorch backbone
在PyTorch深度学习中,预训练backbone(骨干网络)是一个常见的做法,特别是在处理图像识别、目标检测、图像分割等任务时。预训练backbone通常是指在大型数据集(如ImageNet)上预先训练好的卷积神经网络(CNN)模型,这些模型能够提取图像中的通用特征,这些特征在多种任务中都是有用的。
2024-07-23 21:15:04
876
原创 大模型学习入门
1 GPTGPT(Generative Pre-trained Transformer)是一种基于Transformer结构的大型语言模型,由OpenAI公司开发并推广。GPT代表了一系列不断进化的模型,其中最著名的包括GPT-1、GPT-2、GPT-3以及后续的GPT-4等版本。这些模型的核心在于它们能够通过预训练(pre-training)在大量文本数据上学习语言的统计规律,并在之后的任务中(如文本生成、问答、翻译等)展现出强大的泛化能力。
2024-07-16 21:36:27
265
原创 深度学习基础
深度学习中的卷积层(Convolutional Layer)是卷积神经网络(Convolutional Neural Networks, CNNs)的核心组成部分,它们对输入数据执行卷积操作,这一操作在图像处理和计算机视觉任务中尤为关键。:卷积层通过一组可学习的滤波器(也称为卷积核或权重)对输入数据进行滑动窗口式的点积运算,从而提取出输入数据的局部特征。这些特征可以是边缘、角点、纹理等,它们对于后续的图像识别或分类任务至关重要。
2024-07-02 10:26:39
970
原创 yolo系列学习笔记
3 bottleneck 和 resnet 区别,resnet的底层代码实现都要搞清楚。4 yolo的思想,anchor参数的选择?从v1-v8的更新迭代,版本的改进要清楚。2 各种激活函数 优缺点 画图 都要搞清楚。1 yolov5模型+代码 要搞清楚。
2024-03-21 21:40:14
292
1
原创 制作各种系统的u盘启动盘
挂载成功后,文件浏览器左侧栏会显示一个新的卷。名字如 CCCOMA_X64FRE_ZH-CN_DV9。Mac OS X 上挂载 iso 镜像非常容易, 您可以双击 iso 文件,即完成挂载。然后找到磁盘工具,格式话U盘,如果有重要资料备份好资料。找到插入的U盘 重新命名为 “WINDOWS10”在终端输入上面的指令,然后按下会车(enter键)。1 windows制作win10。2 mac制作win10。
2024-01-06 00:44:05
1493
1
原创 pytorch模型部署
在C++平台上部署PyTorch模型流程+踩坑实录 - 知乎PyTorch C++ API — PyTorch main documentationLoading a TorchScript Model in C++ — PyTorch Tutorials 2.2.0+cu121 documentation
2024-01-05 13:30:28
426
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人