自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(259)
  • 资源 (5)
  • 收藏
  • 关注

原创 大模型技术发展概述 - (一)

1.前言2.大模型概述2.1 大模型背景2.1.1 LLMs的规模定律2.1.2 LLM的新兴能力2.1.3 LLM的关键技术3.LLM模型配套资源3.1 公开可用的模型检查点和API3.2 常用的语料库3.3 库资源语言是人类表达和沟通的重要能力,在儿童早期发展,并随着一生的成长而演变。然而,机器要想像人类一样理解和使用语言进行交流,需要强大的人工智能算法的支持。这一目标一直是长期的研究挑战。在推动机器语言智能方面,语言建模(LM)是一种重要的技术方法之一。

2023-07-12 15:32:25 1512 3

原创 计算机视觉 + Self-Supervised Learning 五种算法原理解析

这样的划分是为了应对不同的问题和任务,并且通过不同的方法来训练模型从未标记的数据中学习有用的表示。类似地,自监督学习中的计算机模型也通过观察数据中的自动生成的标签来学习图像的特征。Barlow Twins模型中的冗余减少目标函数可以看作是一种额外的正则化方法,它在训练过程中通过衡量网络输出的互相关矩阵来减少特征的冗余。这有助于提高模型的泛化能力和学习效果。模型的input就是旋转后的图像,label就是原始图像,通过模型ConvNet学习到不同旋转图像的特征,来预测那个旋转的图像与原始图像最接近。

2023-06-20 17:02:32 3199

原创 基于大模型GPT,如何提炼出优质的Prompt

Prompt简单说就是驱动大模型进行表达文本描述。更详细地说,Prompt的基本定义包括以下几个要素:文本片段:Prompt可以是一个短语、一句话、一个段落,甚至是一个完整的问题。它通常是由人类设计者创建的,用于明确和传达特定的意图或任务要求。引导模型行为:Prompt的目的是引导模型执行特定的操作或生成特定类型的输出。这可以包括回答问题、完成任务、写作文章、生成代码等。Prompt需要明确指导模型的期望行为,确保生成的结果符合预期。上下文和约束。

2023-05-23 17:39:34 6239 2

原创 基于扩散模型的光照编辑新突破:IC-Light方法解析与优化

IC-Light 方法是一种在扩散模型训练中具有创新性的方法,其核心在于将光传输一致性原理引入模型训练,以实现对图像光照的准确处理和模型的稳定训练。本文将从多个方面详细介绍 IC-Light 方法,首先深入探讨其核心思想与物理基础,这是该方法的理论基石,为后续的训练和应用提供了原理依据。接着,为了使模型能够应对各种复杂的光照场景,需要统一处理多种类型的训练数据,包括对光照的野外数据分布进行详细处理,这部分内容与数据的获取、格式统一以及增强技术相关,是模型训练的基础准备工作。

2025-03-28 16:21:54 845

原创 ComfyUI实现模特换衣技术原理深度解析

在 ComfyUI 环境下,基于扩散模型实现模特换衣服的技术融合了多种先进的深度学习方法和模型架构,本文旨在结合论文技术方法和comfyui实现的模块组织来介绍其技术原理本文选择以这篇论文:《IMAGDressing-v1: Customizable Virtual Dressing》(https://arxiv.org/pdf/2407.12705v2)对该技术的架构、原理以及关键模块进行详细解析。论文中实现的情况:在论文《IMAGDressing-v1: Customizable Virtual

2025-03-12 15:39:31 588

原创 训练 FLUX LoRA模型安装与部署

在如今日新月异的 AI 辅助设计领域,LoRA(Low-Rank Adaptation)技术的应用愈发广泛,它为模型的个性化训练提供了强大助力。此前,我曾专门撰写文章,详细记录了如何快速训练 SDXL 模型的 LoRA,感兴趣的朋友不妨回顾一下:# 【AI 辅助设计】记一次图标风格 LoRA 训练。而近期,我一直密切关注着 FLUX LoRA 的训练技术和相关动态。毕竟,随着 AI 技术的不断演进,FLUX 已逐渐成为行业发展的大势所趋,曾经辉煌一时的 SD 时代正悄然远去。

2025-03-06 11:26:45 976

原创 Vision Transformer 与 Mix Vision Transformer 对比:探索视觉领域的变革力量

近年来,Transformer 架构在自然语言处理领域取得巨大成功后,迅速蔓延至计算机视觉领域,催生出一系列优秀的模型。Vision Transformer(ViT)作为将 Transformer 引入视觉任务的先驱,为图像理解带来了全新的思路。而 Mix Vision Transformer(MiT)则在 ViT 的基础上进一步发展,针对视觉任务的特点进行了优化。在微调时,分类头则是一个简单的线性层,将图像表示映射到具体的类别上进行分类。,把它分割成固定大小的补丁,每个补丁的大小为。是可学习的分类嵌入,

2025-03-05 16:28:25 1051

原创 ComfyUI:Stable Diffusion 及 LoRA、VAE 、ControlNet模型解析

Hypernetwork(超网络),就像是一个有特殊能力的助手,它可以帮助其他的神经网络变得更聪明。想象一下,你有一支足球队,每个球员都有自己的位置和技能。现在,如果有一个教练,他可以根据比赛的需要,临时给球员们一些额外的技能或建议,让球队表现得更好。Hypernetwork(超网络)在这个比喻中,就扮演了那个教练的角色。调整参数:Hypernetwork(超网络)会在原有的扩散模型基础上,新建一个神经网络来调整模型的参数。这就像是给足球队的每个球员一些特殊的训练,让他们在比赛中表现得更出色。效果类似。

2025-02-24 15:17:56 1022 1

原创 完整的 LoRA 模型训练步骤:如何使用 Kohya_ss 进行 LoRA 训练

使用kohya_ss来进行lora训练,难点就是各种报错的问题如果你自己的CUDA,python,pytorch版本还和官网推荐的不一样,更是报错更多,Kohya_ss 是一个功能强大的工具,专为 Stable Diffusion 模型的训练设计,可以帮助用户使用 LoRA 方法对模型进行微调。在本文中,我们将详细介绍如何使用 Kohya_ss 进行 LoRA 模型训练的完整步骤,包括环境配置、数据处理、以及模型训练等。

2025-02-20 16:58:33 1019

原创 ComfyUI流程图生图原理详解

ComfyUI 是一款功能强大的工具,在图像生成等领域有着广泛应用。本文补充一点ComfyUI 的安装与配置过程遇到的问题,并深入剖析图生图过程及相关参数,帮助读者快速入门并深入理解其原理。

2025-02-12 17:25:20 1369 8

原创 ComfyUI 安装教程:macOS 和 Linux 统一步骤

本教程将详细介绍如何在 macOS 和 Linux 上安装 ComfyUI。我们将从 安装 Anaconda 开始,到安装 PyTorch 和 ComfyUI,最后提供一些常见问题的解决方法。macOS和linux安装步骤很相似可以按照1️⃣安装anaconda2️⃣安装python3️⃣torch4️⃣comfyui。

2025-02-07 15:35:03 2245

原创 一文了解Mamba和选择性状态空间模型 (SSM)

在这篇博文中,我们将带您深入了解序列建模的演变历程,从最初的简单前馈神经网络,到 Transformer 的出现,这一架构的革新彻底改变了自然语言处理等领域的面貌。接着,我们将探讨该领域的最新进展:Mamba架构,这一新兴模型有望突破 Transformer 的一些局限性,提升处理长序列数据的效率与准确性。如今,基于 Transformer 架构的模型已经成为深度学习领域的核心技术,支持着各种令人兴奋的应用。Transformer 的核心——自注意力机制——在多个任务中表现出色。然而,尽管 Transfor

2024-11-12 11:49:44 3814 2

原创 机器学习中的两种主要思路:数据驱动与模型驱动

在机器学习的研究和应用中,如何从数据中提取有价值的信息并做出准确预测,是推动该领域发展的核心问题之一。在这个过程中,机器学习方法主要依赖于两种主要的思路:数据驱动与模型驱动。这两种思路在不同的应用场景中发挥着至关重要的作用,它们的核心差异在于如何利用数据和模型的关系来进行预测和决策。本文将深入探讨这两种思路的内涵和区别,并阐述它们在机器学习各个阶段中的应用。机器学习通常包括数据预处理、特征工程、模型选择、训练与评估等多个阶段。

2024-11-07 13:05:52 5549

原创 深入探讨 Linux 命令行中的筛选方法与技巧

Linux 提供了多种处理和筛选命令行输出的工具,它们具有不同的功能,可以单独使用或组合使用来完成特定任务。awk:文本处理和模式匹配工具,能够根据条件筛选并处理特定列。grep:通过字符串或正则表达式匹配文本行。find:查找符合特定条件的文件或目录。xargs:将筛选出的结果传递给其他命令进行进一步处理。sed:用于文本编辑、替换以及筛选特定行。这些工具可以应用于几乎所有命令输出,能够让我们高效地从大量数据中提取所需的内容。通过组合使用这些工具,可以构建强大的命令流水线。

2024-10-25 14:36:42 1023

原创 论文解读,神经网络全梯度表示《Full-Gradient Representation for Neural Network Visualization》

这篇论文介绍了一种新的工具,称为全梯度,用于解释神经网络的响应。这个全梯度的概念将神经网络的响应分解为两个部分:输入灵敏度和每个神经元的灵敏度分量。对于卷积网络,论文提出了一种近似显着图表示,称为 FullGrad,是通过聚合全梯度分量获得。博主自己的理解就是有点类似于传统图像处理梯度算法,例如Sobel基本上改为卷积处理,也可以理解为研究用于解释神经网络函数的显着图表示。虽然显着性没有单一的正式定义,但社区认为有几个重要的直观特征然而,我们面临着一个挑战:对于实际的神经网络来说,局部归因和全局归因这两种概

2024-08-08 17:06:57 1575

原创 深入了解核函数:连接机器学习与统计学的桥梁

在机器学习中,支持向量机(SVM)是一种强大的监督学习模型,特别适合处理分类问题。然而,SVM最初被设计用于线性可分的数据集,现实中的数据往往不是线性可分的。为了解决这一问题,我们引入了核函数的概念。核函数通过将数据映射到高维特征空间,使得在新的特征空间中数据可以线性可分,从而提升了模型的表现。核函数(Kernel Function)是机器学习和统计学中的一个核心概念,尽管其重要性不言而喻,但它的定义和应用往往令人困惑。在多种应用中,核函数的不同形式和解释让初学者感到难以把握。

2024-08-08 14:13:44 928

原创 OpenVINO部署

OpenVINO(Open Visual Inference and Neural Network Optimization)是由英特尔开发的工具包,旨在优化和加速在各种英特尔架构(如CPU、GPU和FPGA)上的深度学习推理,特别侧重于计算机视觉任务。该工具包支持来自流行框架(如TensorFlow和PyTorch)的模型,将它们转换为适合在英特尔硬件上部署的中间表示。

2024-06-26 17:20:54 2786 1

原创 Depth Anything V1,V2论文解读

例如,通过数据集混合和尺度-平移不变损失的构建,研究人员能够在训练过程中有效地利用多样化的数据源,提升模型的泛化能力。这些修改使得模型能够从大规模未标注图像中积极地获取额外的视觉知识,并显著提高了标注图像的基线表现,从而增强了模型的鲁棒性和处理开放世界数据的能力。这些数据集包含了丰富的场景和视角变化,能够有效提升模型的泛化能力和适应各种应用场景的能力。常见的仿射不变损失函数包括平方损失函数的变体或者其他形式的损失函数,如Huber损失函数等,用于惩罚预测值与真实值之间的差异,同时考虑到尺度和平移变化。

2024-06-26 16:37:25 2968 1

原创 DiffusionDet:用于物体检测的扩散模型

论文标题:DiffusionDet: Diffusion Model for Object Detection。

2024-06-14 15:31:26 1239 1

原创 自监督分类网络:创新的端到端学习方法

现代人工智能的快速发展中,分类任务的高效解决方案一直备受关注。今天,我们向大家介绍一种名为Self-Classifier的全新自监督端到端分类学习方法。由Elad Amrani、Leonid Karlinsky和Alex Bronstein团队开发,Self-Classifier通过优化同一样本的两个增强视图的同类预测,能够在单阶段的端到端过程中同时学习标签和表示。为了避免出现所有标签都被错误地分配到同一类的退化解决方案,研究团队提出了一种在预测标签上具有均匀先验的交叉熵损失的数学变体。

2024-06-13 16:50:58 1330

原创 AI Agent 热门的10篇论文

基于智能多智能体系统(MAS)的学习结合了从环境中收集信息、识别数据、智能分类数据和预测未来数据、存储数据、将数据传递到知识管理系统(如决策支持系统(DSS)和管理信息系统(MIS))的过程。这篇论文探讨了现有的多智能体系统研究,并确定了尚未充分解决的挑战。这篇论文讨论了多智能体系统(MAS)的结构及其组成部分,强调了智能多智能体系统在各种研究领域中的潜力,特别是在支持机器学习模型的虚拟环境中。这篇综述对基于大语言模型(LLM)的多智能体系统的基本方面进行了深入讨论,包括这些智能体模拟的挑战、领域和环境。

2024-06-11 11:05:32 1738

原创 星鸾云平台:高效配置Anaconda环境

星鸾云平台以其卓越的产品功能和优势,成为众多研究者和开发者的理想选择。平台提供多样化的算力资源和AI一体机产品,能够满足不同用户的需求。新用户注册即可体验,仅需支付1分钱即可使用GeForce RTX 4090 GPU显卡进行一小时的计算任务。本文将以在星鸾云服务器上安装Anaconda并配置Python环境为例,详细介绍如何利用星鸾云平台的优势来高效完成计算任务。

2024-05-31 14:33:26 1414 1

原创 用ControlNet+Inpaint实现stable diffusion模特换衣

删除任何内容填充任何内容替换任何内容删除任何3D删除任何视频- 点击一个对象- 点击一个对象- 点击一个对象- 单击源视图的第一个视图中的对象- 点击视频第一帧中的对象- 分割模型SAM将对象分割出来- SAM将目标分割出来- SAM将目标分割出来- SAM将对象分割出来(使用三个可能的掩码)- SAM将对象分割出来(使用三个可能的掩码)- 修复模型填补“窟窿”- 输入文字提示- 输入文字提示- 选择一个掩码- 选择一个掩码。

2024-05-24 16:29:02 1387 1

原创 Wav2Vec 2.0:语音表示自监督学习框架

Wav2Vec 2.0是目前自动语音识别的模型之一。Wav2Vec 2.0 代表了无监督预训练技术在语音识别领域的重大进步。这些方法通过直接从原始音频中学习,无需人工标记,因此可以有效利用大量未标记的语音数据集。相比于传统的监督学习数据集通常只有大约几百小时的标记数据,这些新方法已经能够扩展到使用多达 1,000,000 小时的未标记语音进行训练。在标准基准测试上进行微调后,这种方法在低数据环境中特别显著地提升了现有技术的表现。

2024-05-23 11:32:12 5350

原创 GPT-4o:全面深入了解 OpenAI 的 GPT-4o

OpenAI 推出了最新的人工智能模型 GPT-4o,这是一项突破性的开发成果,将文本、语音和视觉功能集成到单一、无缝的人工智能体验中。GPT-4o 于 2024 年 5 月 13 日发布,其中“o”代表“o​​mni”,它将彻底改变用户与 AI 交互的方式,使体验比以往更加自然和直观。

2024-05-14 14:38:49 4396

原创 融合卷积和注意力机制:有效整合它们优势的方法概述

CNNs和Transformers在计算机视觉领域都取得了巨大成功,但它们的底层原理不同,导致它们在学习数据表示方面有着不同的优势和局限性。CNNs以稀疏连接和参数共享为特点,更注重局部结构,拥有较少的参数。因此,即使在相对较小的数据集上进行训练时(例如ImageNet),它们也能很好地泛化,但在捕捉全局关系方面表现欠佳,尤其是与Transformers相比。另一方面,Transformers具有密集连接,并且根据输入值动态调整连接权重,因此它们更容易学习复杂的全局关系,具有更强的表现能力。但由于其高表现力

2024-04-26 18:13:14 2337

原创 为什么深度学习模型在 GPU 上运行得更快:CUDA 编程简介

当您运行某些深度学习模型时,您可能会选择使用一些流行的 Python 库,例如 PyTorch 或 TensorFlow。然而,众所周知,这些库的核心在底层运行 C/C++ 代码。此外,正如我们之前提到的,您可以使用 GPU 来加快处理速度。这就是 CUDA 发挥作用的地方!CUDA 代表统一计算架构,它是 NVIDIA 开发的用于在 GPU 上进行通用处理的平台。

2024-04-26 12:52:10 1177

原创 神经网络压缩图像

典型的压缩管道由四个组件组成:编码:输入图像x通过编码器函数ε,将其转换为潜在表示z。量化:截断z以丢弃一些不重要的信息熵编码:使用某种形式的熵编码(例如:算术编码)来无损地存储截断的潜在z解码:原始x被重构为通过使用z通过解码器函数D获得x需要注意的是,压缩失真主要是由量化步骤造成的——编码器可以是一个双射函数。我们根据某种失真度量来衡量原始图像与重构图像之间的接近程度,其中常见的选择是平方误差ddxx∣∣x−x∣∣22​。

2024-04-16 11:08:56 2299

原创 论文解读:Fine-grained Visual Classification with High-temperature Refinement and Background Suppression

细粒度的视觉分类是一项具有挑战性的任务,因为不同类别之间存在着高度相似性,同时同一类别内的数据也存在着明显差异。为了解决这些挑战,本文提出了一种新的网络模型,称为“高温细化和背景抑制”(HERBS),该模型由高温细化模块和背景抑制模块组成。高温细化模块允许网络学习适当的特征尺度,并提高各种特征的表征能力,而背景抑制模块则利用分类置信度将特征图分为前景和背景,并抑制低置信度区域中的特征值,从而提高了模型的判别能力。

2024-04-11 15:37:45 1714 3

原创 从 YOLOv1 到 YOLO-NAS 的所有 YOLO 模型:论文解析

目标检测是计算机视觉中一项重要任务。简而言之,目标检测定义为目标定位 + 目标分类。目标定位是使用边界框在图像中定位对象的方法,而目标分类是告诉我们该边界框中有什么的方法。在2016年的CVPR上,Joseph Redmon与来自FAIR(Facebook AI Research)和Allen Institute for AI的研究人员共同发表了关于YOLO(You Only Look Once)的重要论文。当时,它是一种单阶段目标检测器的最先进技术。

2024-01-03 16:40:29 2159

原创 Stable Diffusion模型概述

在Stable Diffusion v1中,VAE文件用于改善眼睛和面部的效果。它们是我们刚刚讨论的自动编码器的解码器。通过进一步微调解码器,模型可以呈现更精细的细节。你可能意识到我之前提到的并不完全正确。将图像压缩到潜在空间确实会丢失信息,因为原始的VAE没有恢复出精细的细节。相反,VAE解码器负责绘制精细的细节。这篇文章不完整,没有解释分类器免费引导(CFG),这是AI艺术家每天都在调整的一个值。为了理解它是什么,我们首先需要谈谈它的前身,分类器引导…

2024-01-02 08:56:14 2833 2

原创 Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

良好的人群计数方法也可以扩展到其他领域,如从显微图像中计数细胞或细菌、在野生动物保护区估算动物群体的数量,或者估算交通枢纽或交通拥堵中的车辆数量等。以前的方法主要采用检测风格的框架,通过在视频序列的两个连续帧上扫描检测器,基于增强外观和运动特征,估算行人的数量。然而,这些方法的局限性在于,它们通常假定人群由可以通过某些给定检测器检测到的单独实体组成,这在拥挤的环境或非常密集的人群中显着影响检测器性能和最终的估算准确性。然而,对于不同的场景和图像,需要综合利用多个信息源,以提高估算的准确性。

2024-01-02 08:55:04 1083

原创 2023年十篇具有影响力的人工智能研究论文

2023年,人工智能(AI)领域迎来了前所未有的飞速发展。随着技术的不断突破和革新,AI已经成为引领未来潮流的重要驱动力。在这篇文章中,深入研究了来自不同领域的十篇具有变革性的研究论文,涵盖了语言模型、图像处理、图像生成和视频编辑。随着对人工通用智能(AGI)的讨论揭示了AGI似乎比以往更易接近,一些特色论文探讨了通往AGI的各种路径,如扩展语言模型或利用强化学习进行跨领域的掌握。

2024-01-02 08:53:24 4432

原创 探索三种生成模型:基于DDPMs、NCSNs和SDEs方法的Diffusion

去噪扩散模型代表了计算机视觉领域的一个新兴主题,取得了在生成建模方面的显著成果。该模型分为正向扩散阶段和反向扩散阶段。在正向扩散阶段,逐步添加高斯噪声逐渐扰动输入数据;在反向扩散阶段,模型通过学习逆转扩散过程逐步恢复原始输入数据。尽管计算负担较大,但由于生成样本的质量和多样性,扩散模型受到广泛赞赏。在计算机视觉中,扩散模型已应用于多个任务,包括图像生成、图像超分辨率、图像修复、图像编辑、图像翻译等。此外,扩散模型学到的潜在表示在判别任务中也被发现是有用的,例如图像分割、分类和异常检测。

2023-11-28 17:06:05 1672

原创 GLM: 自回归空白填充的多任务预训练语言模型

当前,ChatGLM-6B 在自然语言处理领域日益流行。其卓越的技术特点和强大的语言建模能力使其成为对话语言模型中的佼佼者。让我们深入了解 ChatGLM-6B 的技术特点,探索它在对话模型中的创新之处。

2023-11-27 10:49:25 1363

原创 探索稳定扩散技术中的LoRA权重激活:从模型微调到动漫风格图像生成的全过程

低秩适应(LoRA)技术是一种创新的方法,用于解决微调扩散器和大型语言模型(LLMs)的问题。在稳定扩散微调中,LoRA可应用于图像表示的交叉注意层,其中包含描述的潜在信息。为了理解模型微调的基本概念和方法,您可以参考Hugging Face扩散器的文档在这篇博客中,我们旨在介绍如何使用OpenVINO™优化构建Stable Diffusion + ControlNet管道,并启用LoRA权重,以便通过Stable Diffusion的Unet模型生成具有不同风格的图像。演示源代码基于。

2023-11-23 17:14:40 1426 1

原创 深度学习模型训练计算量的估算

深度学习模型训练计算量的估算在当今的机器学习领域,深度学习模型的性能和先进性往往与其在更多计算资源上进行的训练有关。为了确保不同深度学习模型之间的准确比较,估算和报告训练过程中的计算资源使用情况变得至关重要。本文将探讨深度学习模型训练计算量的估算方法,并介绍了该领域的一些前沿。我们将重点介绍两种估算方法,以大家更好地理解和比较不同深度学习模型的训练计算量,这两种方法用于估算深度学习模型的训练计算量。

2023-11-23 14:58:32 1009

原创 深入理解服务器进程管理与优化

服务器进程是在服务器上运行的程序的一个实例。它负责接收、处理和响应来自客户端的请求,通过网络或本地连接提供服务。服务器进程可以是各种类型的应用程序,例如Web服务器、数据库服务器、文件服务器等。其核心任务是处理与客户端的通信,执行相应的服务逻辑,并确保高效地管理系统资源。fuser’命令用于识别正在使用指定文件或文件系统的进程。在GPU相关的场景中,我们可以使用’fuser’命令来查找哪些进程正在使用NVIDIA GPU。基本用法。

2023-11-14 14:13:49 1899 3

原创 PEFT概述:最先进的参数高效微调技术

什么是PEFT什么是LoRA用例使用PEFT训练LLMs入门PEFT配置4位量化封装基础Transformer模型保存模型加载模型推理结论随着大型语言模型(LLMs)如GPT-3.5、LLaMA2和PaLM2在规模上不断扩大,对它们在下游自然语言处理(NLP)任务上进行微调变得越来越耗费计算和内存资源。参数高效微调(PEFT)方法通过仅微调少量额外的参数,同时冻结大多数预训练模型,解决了这些问题。这可以防止在大型模型中发生灾难性遗忘,从而使有限的计算资源能够进行微调。

2023-11-10 16:22:47 991

原创 Colorful Image Colorization灰度图像上色

作者的目标是将灰度输入通道XXXX∈RH×W×1X∈RH×W×1映射到关联的两个颜色通道YYY,即YFXYFX。Y∈RH×W×2Y∈RH×W×2为了实现这一任务,作者采用CIE Lab色彩空间,并使用欧氏损失函数来度量预测颜色和真实颜色之间的距离。然而,由于颜色上色问题具有固有的多模态性和歧义性,欧氏损失函数不够鲁棒,容易产生灰暗和褪色的结果。

2023-11-02 10:30:46 641

海康NVR开发SDK,sdk开发文档

海康NVR开发SDK,包含sdk需要的库文件,python demo和sdk开发文档pdf

2023-07-07

Multimodal Deep Learning

多模态技术综述 目录: Preface v Foreword 1 1 Introduction 3 1.1 Introduction to Multimodal Deep Learning . . . . . . . . . . 3 1.2 Outline of the Booklet . . . . . . . . . . . . . . . . . . . . . . 4 2 Introducing the modalities 7 2.1 State-of-the-art in NLP . . . . . . . . . . . . . . . . . . . . . 9 2.2 State-of-the-art in Computer Vision . . . . . . . . . . . . . . 33 2.3 Resources and Benchmarks for NLP, CV and multimodal tasks 54 3 Multimodal architectures 83 3.1 Image2Text . . . . . . . . . . . .

2023-04-10

Opencv中做人脸检测的时候的一个级联分类器 xml文件

CascadeClassifier,是Opencv中做人脸检测的时候的一个级联分类器。并且既可以使用Haar,也可以使用LBP特征 实例: cv2.CascadeClassifier('haarcascade_frontalface_default.xml')

2022-11-02

科大讯飞数猪数据集,不需要积分

科大讯飞数猪数据集,json格式 支持coco,也可以在paddle中下载,或者使用paddlex转换一下格式,或者自己标注, 图片场景比较单一,可能模型泛化能力差

2022-10-13

光栅目标检测数据yolov数据集格式

已经划分好的train和val

2022-06-22

archive数据集,免费下载

archive数据集,免费下载

2021-10-29

covid-19数据集

免费下载

2021-10-11

pytorch_object_detection.zip

基于数据集COCO,实现fast-rcnn、retNet、SSD、YOLO3,四种算法

2021-07-22

imageclassification.zip

基于pytorch实现图像分类算法,LetNet,AlexNet,VGG,GoogLeNet,ResNet,每个算法,有三个文件。(model.py、train.py、predict.py)。使用数据集保存在data_set文件中

2021-07-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除