
深度学习
文章平均质量分 86
点PY
付费咨询、有偿辅导+扣扣1224425503
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LORA的工作原理
LoRA,全称Low-Rank Adaptation,是一种高效的模型适应技术,主要用于对大型预训练模型进行微调。原创 2024-07-24 16:50:35 · 757 阅读 · 0 评论 -
机器学习中的Embeddings是什么
要理解嵌入,我们必须首先了解机器学习模型的基本要求。具体来说,大多数机器学习算法只能将低维数值数据作为输入。在下面的神经网络中,每个输入特征都必须是数字。这意味着在推荐系统等领域,我们必须将非数字变量(例如项目和用户)转换为数字和向量。我们可以尝试用产品 ID 来表示商品;然而,神经网络将数字输入视为连续变量。这意味着较高的数字“大于”较低的数字。它还将相似的数字视为相似的项目。这对于“年龄”这样的字段来说非常有意义,但当数字代表分类变量时就毫无意义了。原创 2023-07-03 20:34:42 · 1302 阅读 · 0 评论 -
使用预训练CNN生成图像嵌入(image embeddings)
图像嵌入是图像的低维表示。换句话说,它是图像的密集向量表示,可用于分类等许多任务。例如,这些深度学习表示有时用于创建搜索引擎,因为它依赖于图像相似性。事实上,要找到一类图像(例如狗),我们只需要找到最接近狗图像向量的嵌入向量。找到这些的一个好方法是计算嵌入之间的余弦相似度。相似的图像在嵌入之间将具有较高的余弦相似度。原创 2023-07-03 17:34:47 · 3974 阅读 · 0 评论 -
如何微调Segment Anything Model
Segment Anything Model (SAM) 是由 Meta AI 开发的一种分割模型。它被认为是计算机视觉的第一个基础模型。SAM 在包含数百万图像和数十亿掩码的庞大数据集上进行了训练,使其非常强大。顾名思义,SAM 能够为各种图像生成准确的分割掩码。Sam 的设计允许它考虑人类提示,这使得它对于 Human In The Loop 注释特别强大。这些提示可以是多模式的:它们可以是要分割区域上的点、要分割对象周围的边界框或关于应该分割什么的文本提示。翻译 2023-04-18 10:53:48 · 6889 阅读 · 6 评论 -
深度学习人体解析
人体解析旨在将图像或视频中的人体分割成多个像素级的语义部分。在过去的十年中,它在计算机视觉社区中获得了极大的兴趣,并在广泛的实际应用中得到了应用,从安全监控到社交媒体,再到视觉特效,这只是其中的一小部分。尽管基于深度学习的人工解析方案已经取得了显著的成就,但许多重要的概念、存在的挑战和潜在的研究方向仍然令人困惑。全面回顾了单人体解析、多人体解析和视频人体解析这3个核心子任务,介绍了它们各自的任务设置、背景概念、相关问题和应用、代表性文献和数据集。还在基准数据集上对所审查的方法进行了定量的性能比较。原创 2023-01-09 17:46:24 · 1966 阅读 · 3 评论 -
深度学习中的正则化——L1、L2 和 Dropout
训练神经网络时最重要的方面之一是避免过度拟合。然而,让我们快速回顾一下:过度拟合是指神经网络对训练数据进行很好的建模但在看到来自同一问题域的新数据时失败的现象。过度拟合是由神经网络在训练过程中拾取的训练数据中的噪声引起的,并将其作为数据的基本概念进行学习。然而,这种习得的噪声对于每个训练集都是独一无二的。一旦模型看到来自同一问题域的新数据,但不包含这种噪声,神经网络的性能就会变得更差。“为什么神经网络首先会接收到这种噪音?”这样做的原因是这个网络的复杂度太高了。右侧图像显示了具有更高复杂性的神经网络的拟合原创 2022-12-04 10:01:55 · 3287 阅读 · 2 评论 -
深度学习数据集最常见的6大问题
如果您还没有听过,请告诉您一个事实,作为一名数据科学家,您应该始终站在一个角落跟你说:“你的结果与你的数据一样好。”尝试通过提高模型能力来弥补糟糕的数据是许多人会犯的错误。这相当于你因为原来的汽车使用了劣质汽油导致汽车表现不佳,而更换了一辆超级跑车。这种情况下应该做的是提炼汽油,而不是升级的车。在这篇文章中。我将向您解释如何通过提高数据集质量的方法来轻松获取更好的结果。注意:我将以图像分类的任务为例,但这些技巧可以应用于各种数据集。原创 2022-10-20 13:51:04 · 3729 阅读 · 0 评论 -
从零开始的时间序列分类
文章目录介绍加载数据:FordA 数据集数据集描述读取 TSV 数据可视化数据标准化数据建立模型训练模型根据测试数据评估模型绘制模型的训练和验证损失介绍这个例子展示了如何从头开始进行时间序列分类,从磁盘上的原始 CSV 时间序列文件开始。我们在UCR/UEA 档案中的 FordA 数据集上演示了工作流程 。加载数据:FordA 数据集数据集描述我们在这里使用的数据集称为 FordA。数据来自 UCR 档案。该数据集包含 3601 个训练实例和另外 1320 个测试实例。每个时间序列对应于电机传感器原创 2022-04-29 13:53:24 · 5070 阅读 · 0 评论 -
Connectivity相关论文、代码合集
文章目录2018Non-local Neural Networks2019ConnNet: A Long-Range Relation-Aware Pixel-Connectivity Network for Salient Segmentation2021BiconNet: An Edge-preserved Connectivity-based Approach for Salient Object Detection2018Non-local Neural Networkscode: https原创 2022-03-04 10:59:10 · 1649 阅读 · 0 评论 -
数据增强之TrivialAugment
论文:TrivialAugment: Tuning-free Yet State-of-the-Art Data Augmentation代码:https://github.com/automl/trivialaugment文章目录Introduction解决的问题使用方法算法描述Introduction本文主要研究数据增强在图像分类场景的应用。图像分类中的数据增强是基于原始图像生成新的图像,增强完以后仍然属于相同的分类,相当于数据的扩充。早期的数据增强策略是纯人工设计的,直至AA等自动搜索出的数.原创 2021-12-30 13:34:15 · 3301 阅读 · 9 评论 -
CNN中的即插即用小模块汇总
文章目录前言1 STN2. ASPP3. Non-local4. SE5. CBAM6 DCN v1&v27 CoordConv8 Ghost9 BlurPool10 RFB11 ASFF前言本文盘点一些CNN网络中设计比较精巧而又实用的“插件”。所谓“插件”,就是不改变网络主体结构, 可以很容易嵌入到主流网络当中,提高网络提取特征的能力,能够做到plug-and-play。1 STN出自论文:Spatial Transformer Networks论文链接:https://arxiv.o原创 2021-12-28 14:19:59 · 8507 阅读 · 7 评论 -
有趣的智能图像处理demo汇总
文章目录1.图像上色2. 人物卡通化3. 风格迁移1.图像上色code : https://github.com/richzhang/colorization对老照片上色一直是人梦寐以求的效果,随着深度学习的发展,这个想法已经被技术所实现。2. 人物卡通化code: https://github.com/ahmedbesbes/cartoonify3. 风格迁移code: https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix原创 2021-12-22 14:38:32 · 1911 阅读 · 0 评论 -
深度学习优化器论文集
文章目录2021Apollo: An Adaptive Parameter-wise Diagonal Quasi-Newton Method for Nonconvex Stochastic Optimization2021Apollo: An Adaptive Parameter-wise Diagonal Quasi-Newton Method for Nonconvex Stochastic Optimizationpaper: https://arxiv.org/abs/2009.13586原创 2021-12-22 11:06:40 · 1356 阅读 · 0 评论 -
用于计算机视觉及其他领域的GNN教程
来自 ( Bruna et al., ICLR, 2014 ) 的图描绘了 3D 球体上的 MNIST 图像。虽然很难让卷积网络对球面数据进行分类,但图网络可以自然地处理它。这是一个玩具示例,但在许多实际应用程序中会出现类似的任务。在我的教程的这一部分中解决的问题是:文章目录1 为什么图表有用?2 为什么图上的卷积很难定义?2.1 为什么卷积有用?2.2 根据图形对图像进行卷积3 什么使神经网络成为图神经网络?1 为什么图表有用?在许多实际情况下,实际上是由您决定图中的节点和边是什么。这是一种非.原创 2021-11-13 23:15:27 · 1700 阅读 · 1 评论 -
多模态深度学习简介
文章目录前言多模态数据的好处多模态学习的工作原理模式的表示模态转换特征提取融合与共同学习结论前言我们对世界的体验是多模态的——我们看到物体,听到声音,感受质地,闻到气味和味道,然后做出决定。多模态学习表明,当我们的多种感官——视觉、听觉、触觉——都参与信息处理时,我们会理解并记住更多。通过组合这些模式,学习者可以组合来自不同来源的信息。在深度学习方面,仅根据信息来源(图像、文本、音频、视频)训练模型的方法很常见。但是还有一种方法可以构建同时包含两种数据类型(例如文本和图像)的模型。使用多模态数据不原创 2021-07-20 13:26:32 · 5373 阅读 · 0 评论 -
牛津大学|“不变信息聚类” :Invariant Information Clustering
code: https://github.com/xu-ji/IICpaper: https://arxiv.org/abs/1807.06653人类是如此擅长“无监督”,以至于我们经常用肤浅的认知作出荒谬的结论。人类擅长“无监督”,往往是因为“滥用”过往的经验妄下结论; 而AI模型的“无监督”,是对数据“妄下”的结论。自从有了深度网络的“大锤”,曾经传统聚类的钉子(k-means, 谱聚类等)似乎都被敲了一遍。而强行结合传统聚类的深度学习方法,缺乏语义过滤,谁能保证选取的特征都是对聚类任务有原创 2021-06-24 15:54:10 · 2647 阅读 · 2 评论 -
使用 SimCLR 推进自我监督和半监督学习
code: https://github.com/google-research/simclr文章目录前言SimCLR框架性能理解表示的对比学习前言最近,自然语言处理模型,例如BERT和T5,已经表明,通过首先在一个大型未标记数据集,然后在较小的标记数据集上进行微调。同样,训练前对大型未标记的图片数据集,具有提高计算机视觉任务性能的潜力,具体表现为标本的CNN,实例歧视,CPC,AMDIM,CMC,莫科和别的。这些方法属于自监督学习的范畴,自监督学习是一系列技术,通过从未标记的数据集中创建替代标签原创 2021-06-23 16:35:52 · 601 阅读 · 0 评论 -
Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
code:https://github.com/ranandalon/mtl摘要许多深度学习应用程序都受益于具有多重回归和分类目标的多任务学习。在本文中,我们观察到这些系统的性能会很强地依赖于每个任务损失之间的相对权重。手工调整这些权重是一个困难和昂贵的过程,这使得多任务学习在实践中被禁止。我们提出了一种原则性的多任务深度学习方法,该方法通过考虑每个任务的同方差不确定性来权衡多个损失函数。这允许我们在分类和回归设置中同时学习具有不同单位或尺度的不同量。我们演示了我们的模型学习每像素深度回归,语义和实例分原创 2021-04-08 13:55:18 · 295 阅读 · 1 评论 -
Swin Transformer
paper: https://arxiv.org/abs/2103.14030code: https://github.com/microsoft/Swin-Transformer文章目录前言Swin TransformerShifted Window based MSA实验结果总结前言本文介绍了一种称为Swin Transformer的新型transformer,通过引入CNN中常用的层次化构建方式构建层次化Transformer以及引入locality思想解决transformer迁移至CV上的原创 2021-04-01 08:53:29 · 18790 阅读 · 4 评论 -
无需向量监督的矢量图生成算法
paper:https://arxiv.org/pdf/2102.02798.pdfcode:https://github.com/preddy5/Im2Vec文章目录概要原理架构与现有技术对比局限结论概要说起图像生成算法,大家也许并不陌生。不过,大多数算法都针对栅格图像,也就是位图,而不支持矢量图。虽然也有一些生成矢量图形的算法,但是在监督训练中,又受限于矢量图数据集有限的质量和规模。为此,来自伦敦大学学院和Adobe Research的研究人员提出了一个新方法——Im2Vec,只需利用栅格训练原创 2021-03-20 16:36:04 · 900 阅读 · 0 评论 -
这是卷积神经网络的终结吗?
文章目录前言卷积神经网络的问题Transformers模型结构重点结果前言近十年来,卷积神经网络一直主导着全球的计算机视觉研究。然而,人们提出了一种新的方法,利用变压器的能量来理解图像。变压器最初是为自然语言处理任务设计的,主要关注神经机器翻译。来自谷歌Research的Alexey Dosovitskiy, Lucas Beyer等人的论文《An Image is Worth 16x16 Words: Transformer for Image Recognition at Scale》提出了一种名为原创 2021-03-15 15:25:43 · 394 阅读 · 0 评论 -
使用CAM解密卷积神经网络
code:https://github.com/philipperemy/tensorflow-class-activation-mappingpaper:https://arxiv.org/abs/1512.04150文章目录前言网络架构简单的工作实现和结果结论前言无论是金融领域的股票价格预测,还是计算机视觉领域的目标检测和分割等复杂任务,机器学习在各个领域的应用都在迅猛发展。人工智能革命已经席卷了所有领域,在某些领域,机器学习算法的表现甚至超过了人类水平。例如,ImageNet挑战是每年组织等各原创 2021-02-01 10:59:52 · 1337 阅读 · 0 评论 -
SoftPool
paper: https://arxiv.org/abs/2101.00440code: https://github.com/alexandrosstergiou/SoftPool文章目录摘要简介前人工作Hand-crafted Pooling特征Pooling in CNNsSoftPool方法Exponential maximum kernelsGradient calculationFeature preservationSpatio-temporal kernels实验结果ImageNet-原创 2021-01-11 20:23:43 · 1845 阅读 · 4 评论 -
语义分割模块PointRend
文章目录1.概述2.源码分析2.1 sampling_points2.2 point_sample2.3 PointHead2.4 loss2.5 模块组合3 实验结果参考paper: http://arxiv.org/abs/1912.08193code: https://github.com/facebookresearch/detectron2/tree/master/projects/PointRend1.概述论文要解决的是图像分割质量问题,往往图像分割在物体边界处的分割质量很差,不能细致的原创 2020-11-27 21:08:41 · 1799 阅读 · 0 评论 -
win10下detectron2的安装教程
1. 安装所需基础环境我所用的前置环境如下cuda11.1pytorch1.7python3.7VS2019, 参考https://blog.youkuaiyun.com/weixin_42990464/article/details/109994779gcc 6.3.0,参考https://blog.youkuaiyun.com/weixin_42990464/article/details/110109988ninja 1.10.0pycocotools,参考https://www.jianshu.com/p原创 2020-11-25 09:31:49 · 1413 阅读 · 7 评论 -
关于cpp_extension的那些BUG
1. 找不到文件Traceback (most recent call last): File "D:\Python\Python36-32\lib\site-packages\selenium-3.4.3-py3.6.egg\selenium\webdriver\common\service.py", line 74, in start stdout=self.log_file, stderr=self.log_file) File "D:\Python\Python36-32\lib\原创 2020-10-26 17:34:19 · 2283 阅读 · 3 评论 -
注意力机制全家桶
文章目录前言SENetpapercodeCBAMpapercodeGCNetpapercode小结前言在CNN中,注意力机制能较好的过滤掉周围的噪声,突显感兴趣区域。本博文将列举几种常用的注意力机制模块网络SENetpaperhttps://arxiv.org/pdf/1709.01507.pdfcodeclass SEModule(nn.Module): def __init__(self, channels, reduction): super(SEModule,原创 2020-08-20 17:13:14 · 808 阅读 · 1 评论 -
指数移动平均EMA以及Pytorch实现
EMA的定义在深度学习中,经常会使用EMA(指数移动平均)这个方法对模型的参数做平均,以求提高测试指标并增加模型鲁棒。指数移动平均(Exponential Moving Average)也叫权重移动平均(Weighted Moving Average),是一种给予近期数据更高权重的平均方法。深度学习中的EMA上面讲的是广义的ema定义和计算方法,特别的,在深度学习的优化过程中,θt 是t时刻的模型权重weights,vt是t时刻的影子权重(shadow weights)。在梯度下降的过程中,会一直原创 2020-07-28 16:19:05 · 2183 阅读 · 0 评论 -
FReLU
论文:https://arxiv.org/pdf/2007.11824.pdf代码:https://github.com/megvii-model/FunnelAct概述卷积神经网络(CNN)在许多视觉识别任务(例如图像分类,目标检测和语义分割)中均达到了最先进的性能。在CNN中主要的层是卷积层和非线性激活层,在卷积层中,自适应地捕获空间相关性是一个挑战,因此,研究者已经提出了许多更复杂和有效的卷积来在图像中自适应地捕获局部上下文信息,这在密集的预测任务(例如,语义分割和目标检测)上取得了不错的性能提原创 2020-07-26 23:22:03 · 5615 阅读 · 11 评论 -
关于UNet weight mapping的解读
文章目录前言基于权重映射的影像分类方法实验结果对比Reference前言权重映射(weight mapping)最早于2015年Ronneberger提出,即UWM(U-Net weight mapping),主要用于解决紧密相邻难以分割开的问题。在遥感影像中对城区建筑物分割也同意存在这样的问题,如下方的直方图所示。从图中可以看出,建筑物的边界、内部和背景的灰度信息分布有较大差异,其中边界与背景、内部存在部分重叠,通过引入这些先验知识可使模型更有侧重的学习。权重映射可以较好地完成这个任务。下图为权原创 2020-06-03 14:18:37 · 1645 阅读 · 0 评论 -
微调(pytorch)
文章目录前言微调代码实现Reference前言在实际生产生活中所接触到的数据集,远不及ImageNet数据集中样本数的十分之一,这可能导致模型过拟合。同时,因为数据量有限,最终训练得到的模型的精度也达不到实用的要求。为了应对上述问题,最切实可行的方式是应用迁移学习(transfer learning), j将从原数据集学到的知识迁移到目标数据集上。虽然ImageNet数据集的图像大多跟目标类无关,但在该数据集上训练的模型可以抽取较通用的图像特征,从而能够帮助识别边缘、纹理、形状和物体组成等。这些类似的原创 2020-05-27 18:36:36 · 829 阅读 · 0 评论 -
嵌入(embedding)层的理解
https://www.cnblogs.com/USTC-ZCC/p/11068791.html转载 2020-05-25 23:37:21 · 391 阅读 · 0 评论 -
Windows下安装 pycocotools
方法使用命令窗安装:pip install git+https://github.com/philferriere/cocoapi.git#subdirectory=PythonAPI参考:https://www.jianshu.com/p/8658cda3d553原创 2020-05-06 18:33:49 · 186 阅读 · 0 评论 -
数据增强之FMix
FMixFMix是从随机图像中剪切出任意形状的部分,并将其粘贴到相关图像上;它不同于一般的剪切和粘贴,其需要掩膜来定义图像哪些部分需要考虑;通过对傅里叶空间采样的低频图像进行阈值处理得到掩膜。这里是原文出处:https://arxiv.org/abs/2002.12047代码以及效果展示 import matplotlib.pyplot as plt from torchv...原创 2020-05-05 16:05:41 · 2200 阅读 · 3 评论 -
数据增强之CutMix
关于CutMixCutMix是将随机图像的一个矩形部分剪切下来,然后将其粘贴到相关图像的相同位置;lambda决定了矩形的大小,其由参数为alpha的对称分布产生;一个随机的(x, y)坐标是由均匀分布产生的,高度和宽度都有较大的限制。这个坐标就是要切割的矩形部分的中心;然后,通过在中心"x"坐标上减去和加上长度/2,并在中心“y”减去和加上宽度/2,得到边界坐标。因此有四个坐标,即(b...原创 2020-05-04 19:49:15 · 1610 阅读 · 0 评论 -
数据增强之mixup
mixupmixup是基于邻域风险最小化(Vicinal Risk Minimization, VRM)原则的数据增强方法,使用线性插值得到新样本数据。在邻域风险最小化原则下,根据特征向量线性插值将导致相关目标线性插值的先验知识,可得出简单且与数据无关的mixup公式:其中(xn,yn)是插值生成的新数据,(xi,yi) 和 (xj,yj)是训练集中随机选取的两个数据,λ的取值满足贝塔分布...原创 2020-05-02 14:41:15 · 1668 阅读 · 1 评论 -
交叉验证(python)
思路将训练/测试数据集划分N个互斥子集,每次用其中一个子集当作验证集,剩下的N-1个作为训练集,进行N次训练和测试,得到N个结果。代码参数说明:n_splits:表示划分几等份shuffle:在每次划分时,是否进行洗牌①若为Falses时,其效果等同于random_state等于整数,每次划分的结果相同②若为True时,每次划分的结果都不一样,表示经过洗牌,随机取样的random...原创 2020-04-30 10:28:57 · 2498 阅读 · 0 评论 -
建筑物提取数据集
前言建筑物是人类社会生产、生活的主要载体,建筑物轮廓信息是国家基础地理信息的重要组成部分。相比于人工遥感解译与矢量化,结合算法模型从遥感影像中自动提取建筑物轮廓大大减少了人力物力的消耗。这在城市扩张研究、数字城市建设等领域有着广泛的应用。近年来,全卷积神经网络的不断发展为高精度自动化建筑物提取提供了新的方法。但是,由于建筑物在尺度,建筑风格,形态上有较大差异,目前高精度建筑物提取仍存在较大挑战...原创 2020-04-17 08:50:44 · 9318 阅读 · 4 评论 -
利用labelme生成的json文件批量转化为图片
代码如下`import argparseimport jsonimport osimport os.path as ospimport warningsimport PIL.Imageimport yamlfrom labelme import utilsimport base64import numpy as npfrom skimage import img_as_ubyt...原创 2019-04-23 14:50:56 · 6612 阅读 · 4 评论 -
基于labelme的json2图片
1.单个文件 json2dataset1)进入到json格式文件所在的目录2)在所选框处,输入cmd,并回车3)输入命令,labelme_json_to_dataset <文件名>.json转化完成原创 2019-04-23 09:10:12 · 506 阅读 · 0 评论