自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(283)
  • 资源 (3)
  • 收藏
  • 关注

原创 Few-Shot Generative Residual Image Inpainting (GRIG) 首个实现少样本图像修复的模型

Few-Shot Generative Residual Image Inpainting (GRIG) 介绍了一种新颖的少样本图像修复框架,通过生成残差推理实现了高质量的图像修复,特别适用于小样本训练场景。GRIG 的核心创新点在于结合卷积神经网络 (CNNs) 和 Transformer 模块,用于特征提取和全局推理。同时引入 图像级投影判别器 和 伪造补丁判别器,分别用于捕捉全局分布特性和提升局部细节修复质量。

2024-12-22 00:51:18 982

原创 论文介绍 EXE-GAN: 基于范例引导的高质量生成式人脸修复框架

EXE-GAN 的方法包括两个关键阶段:特征分析和生成阶段。特征分析阶段EXE-GAN 通过映射网络和风格编码器提取输入图像和范例图像的风格特征,同时生成一个多风格表示。映射网络:生成随机风格代码,增强模型的生成能力。风格编码器:提取范例图像的解耦风格特征,用于局部区域修复。生成阶段EXE-GAN 的生成阶段通过创新的多风格生成器和自监督属性相似性度量,确保修复图像既保留输入图像的结构,又能从范例中引入细节风格。

2024-12-20 23:14:44 1052

原创 TEG: image theme recognition using text-embedding-guided few-shot adaptation(JEI)

随着摄影和成像技术的普及,用户产生的数字图像数量急剧增加,需要有效的数字图像管理。TEG利用一个预先训练过的视觉语言模型(CLIP),分别从输入的图像和预定义的文本提示中提取紧凑的视觉特征和文本特征。文本嵌入引导的分类器:利用预训练的CLIP模型中的图像编码器和文本编码器,允许模型在识别过程中同时考虑视觉信息和与类别相关的文本信息,增强了对图像主题的理解和识别能力。跨模态特征融合:通过计算视觉特征向量和文本嵌入向量之间的余弦相似性,融合这些跨模态特征得到最终的类别概率分布,提高了在少样本情况下的识别性能。

2024-08-13 08:42:26 461

原创 FACEMUG: A Multimodal Generative and Fusion Framework for Local Facial Editing (TVCG)2024

现有的人脸编辑技术虽然已取得显著成果,但在支持多模式的局部人脸编辑方面仍存在不足,尤其是在多次连续(增量)编辑后,图像的非目标编辑区域会被反复重新生成,导致无关区域受到反复变动,使得编辑质量大幅下降。每一行:给定一个输入图像(第一列),FACEMUG 通过瑕疵去除、样例引导的面部风格转换、语义引导的属性编辑、草图引导的发型编辑、颜色引导的化妆和属性条件的语义编辑(例如性别、年龄和表情)来增量编辑面部图像。对于每一组,FACEMUG 仅在指导信息(左上)的指导下编辑蒙版区域(左下)以生成编辑后的图像(右)。

2024-07-28 21:08:17 1018

原创 undefined symbol: _ZN3c104impl8GPUTrace13gpu mmcv

这样的问题往往都是版本不匹配导致的pytorch的版本,mmcv的版本和cuda 的版本 (nvcc -V) 要一致。首先上pytorch官网看看。cuda和pytorch的版本:可以通过这里查找对应匹配的版本下载mmcv按照官网给的配置去设置各个版本,基本上就没问题。

2024-06-04 02:40:08 737

原创 pix2pix-zero

首先,使用规范化的DDIM反转来得到一个反转的噪声映射,这是由BLIP图像字幕(caption)网络和CLIP文本嵌入模型自动生成的文本嵌入引导的。本文介绍了一种名为pix2pix-zero的图像到图像的翻译方法,它基于扩散模型,允许用户即时指定编辑方向(例如,将猫转换为狗),同时保持原始图像的结构。重要的是,这种方法不需要针对每种编辑类型和图像进行额外的训练,可以直接使用预训练的文本到图像的扩散模型。本文介绍了一种基于扩散的图像到图像的翻译方法,可以在不需要手动文本提示的情况下保持原始图像的内容。

2024-03-01 02:55:45 1027

原创 Stable Diffusion 3来啦:AI画画大跃进,预览版等你体验!

各位创意达人,握紧你的画笔(咳咳,键盘),因为Stable Diffusion 3的预览版正在向我们招手!这不仅仅是一个更新,这是一次革命,带着更高级的多主题理解、更清晰的图像质量和更聪明的文字拼写能力,我们的AI小伙伴学会了更多花样。它的推出体现了我们的初衷:让每个人都能用上高大上的AI工具。当然,对于可能的审查和开放性问题,大家也有自己的看法。那些急不可待想要尝鲜的朋友,别急,Stability AI已经准备了自托管服务和开发者平台API,等正式版发布前你就可以先玩起来。当然也已经是非常大的进步了。

2024-02-24 00:19:17 413 1

原创 花了钱的ChatGPT4.0在绘画方面的能力如何?Sora也能work吗

那ChatGPT4.0的AI绘图功能是否已经成熟到可以完成用户的所有需求了呢?花了钱的ChatGPT4.0在绘画方面的能力如何?还有一个比较致命的问题就是,文字都是乱的,有的纯属瞎写,不过最近新提出的。(PS:故事内容有分镜介绍,对话介绍,篇幅较长,不一一展示)(很有想法的ChatGPT4.0,下次别想了)AnyText: 多语言视觉文本生成与编辑。“愁眉苦脸的公主让愁眉苦脸的国王去和亲”AI图片生成的发展还需要经历漫长的过程。关注微信公众号 DeepGoAI。计算机杂谈及深度学习记录&分享。

2024-02-21 21:54:40 527

原创 AnyText: 多语言视觉文本生成与编辑

通过结合辅助潜在模块和文本嵌入模块,AnyText 能够在多种语言环境下生成清晰、准确的文本,并且可以轻松地集成到现有的扩散模型中,以提高文本的渲染和编辑质量。AnyText 通过一个包含辅助潜在模块和文本嵌入模块的扩散流程实现文本的生成或编辑,可以在图像中无缝整合文本,支持多种语言,是首个针对多语言视觉文本生成的工作。:结合潜在特征和文本嵌入,通过文本控制扩散管道生成或编辑图像中的文本,确保文本与图像背景的自然融合。这里展示了更多编辑的效果,在不规整的掩码下,依然可以做到毫无违和感的编辑效果。

2024-02-20 06:48:17 1342

原创 离谱!用ChatGPT进行审稿!

特别值得注意的是,这位教授99.9%确定这次评审完全是由ChatGPT完成的。因为在收到拒稿意见时,这位教授将整篇论文文本复制粘贴到ChatGPT中,并请求对论文进行一段摘要,得到的摘要与评审意见中的“论文贡献”部分几乎一致,只是在某些地方更换了一些单词。最近,一位教授的LinkedIn动态可谓是火了一把,他的论文被一个学术会议拒绝了,而原因竟然是……是的,那位审稿人可能在享受咖啡时,让AI来完成了“繁重”的工作!下次当你的论文被某个神秘的AI审稿人“青睐”时,别忘了,这可能只是一场由数字构成的梦幻泡影!

2024-02-18 22:43:33 6998 1

原创 Mamba详解

此外,尽管这种改变使得模型不能使用高效的卷积计算,研究者设计了一种硬件感知的并行算法,以递归模式运行,使得Mamba在推理速度上比传统的Transformer快5倍,并且在序列长度上实现线性缩放。总的来说,这篇文章通过引入新的架构设计、硬件感知算法优化和输入依赖的动态,为提高结构化状态空间模型在序列数据处理和时间序列预测方面的性能和效率做出了贡献。但本介绍的工作的一个核心洞见是,LTI模型在模拟某些类型的数据时存在根本性限制,作者的技术贡献包括在克服效率瓶颈的同时移除LTI约束。)对所有时间步都是固定的。

2024-02-17 22:50:00 5112

原创 OpenAI又出王炸,Sora是否要开启视频AI新时代?

OpenAI又出王炸,Sora是否要开启视频AI新时代?关注微信公众号 DeepGoAI前几天我们还在讨论如何让ChatGPT3.5变得更聪明今天OpenAI就带着新王炸出现了如同ChatGPT一般在计算机领域掀起轩然大波开启真正视频AI新时代那就是Sora很多同学可能还不知道Sora它是由OpenAI公司推出的全新视频AI生成模型相较于其他现有的AI生成视频存在的问题Sora都提出了相应的优化升级首先让我们来看两个官网给出的视频片段给定提示内容:一位时尚女性走在充满温暖霓

2024-02-16 22:17:18 499

原创 三分钟教你如何把不要钱的ChatGPT3.5用出花钱4.0的效果!

三分钟教你如何把不要钱的ChatGPT3.5用出花钱4.0的效果!

2024-02-14 00:43:05 702

原创 三分钟教你如何把不要钱的ChatGPT3.5用出花钱4.0的效果!

里面提供了包含基础的“ChatGPT相关的学习工具和指导指南”,还有现在热门的“视频AI”、“会话AI”、“图像AI”、“写作AI”、“办公AI”等软件介绍,一条龙式满足你所有的学习和工作需求。三分钟教你如何把不要钱的ChatGPT3.5用出花钱4.0的效果!首先传授给大家一个教你如何使用提词器优化3.5的网址(4.0通用)如果说在提词器帮助前的ChatGPT是一个有天赋有能力的新人。那我们的提词器辅助就如同一位优秀的老师。计算机杂谈及深度学习记录&分享。所有的模型都是需要训练的。

2024-02-14 00:36:16 829 1

原创 GPT 3.5 真的比 4.0聪明吗?

ChatGPT4.0比3.5拥有更强大的理解能力和分析能力,如果你想要获取实时新闻、研究成果和热点信息,如果你需要根据你的文字需求生成创意的图片,如果你需要更深度的支持和更高级的分析,那ChatGPT4.0将是你的不二选择。然而如果在经济上有一定困难或者暂时不需要4.0的同学们,3.5的正确使用方法大家也要学会。比如如何正确灵活地使用提示词,如何更好地训练ChatGPT为自己所用。以后我们也会推出更多的推文,给大家提供支持和帮助!GPT 3.5 真的比 4.0聪明吗?如果我们用英文输入呢。

2024-02-13 02:13:36 984

原创 论文介绍 VolumeDiffusion

鉴于扩散模型提供了良好的初始输出,作者在这一阶段整合了SDS(文献[37]中提出的方法),以优化结果,确保更好的图像质量和减少错误。作者的方法充分利用了现有的文本到图像模型来生成原始训练集中未覆盖的纹理,增强了纹理细节,并促进了生成图像的多样性。文章还强调了高维特征体积所带来的挑战,并提出了新的噪声计划和低频噪声,以改善扩散模型的训练。Objaverse主要由未经过滤的用户上传的3D模型组成,这些模型从网上爬取,包括许多几何形状、平面扫描和无纹理对象,以及基于图像的缺陷重建。

2024-02-13 02:12:43 951

原创 论文介绍 One-step Diffusion 只需单步扩散生成!

通过最小化近似的KL散度和简单的回归损失,DMD能够在保持图像质量的同时实现极速的生成效率,即在现代硬件上以20 FPS的速度生成图像。尽管DMD在一步生成模型的效率和质量方面取得了显著进步,但作者也指出了其局限性,包括与更细致的扩散采样路径相比,仍有质量差距,以及性能受限于教师模型的能力。(b) 真实得分+假得分: 当考虑了真实和假分布的得分,但没有回归损失时,生成的假数据覆盖了更多的真实分布,但仍然完全错过了第二个模式,即没有捕捉到分布的全部特征。作者的推导使用扩散的均值预测形式来简化,但与。

2024-02-13 02:12:13 2617

原创 论文介绍 FreeControl: 无需额外训练实现文本到图像的空间操控!

上图提供了 FreeControl 方法的概述,展示了如何在无需额外训练的情况下,对任何预训练的文本到图像(T2I)扩散模型进行控制。该论文尝试解决的主要问题和挑战是如何在不需要额外训练的情况下,为预训练的文本到图像(T2I)扩散模型提供精细的空间控制。现有的方法,如ControlNet,虽然能够提供空间控制,但需要为每种空间条件、模型架构和模型文件训练额外的模块,这既耗时又费力,且难以适应不断演变的模型架构和个性化的模型。覆盖了多样的对象形状、姿态、外观以及图像构成和风格,对于语义基础的表达性至关重要。

2024-02-13 02:09:30 605 3

转载 论文介绍 FreeControl: 无需额外训练实现文本到图像的空间操控!

分析阶段和合成阶段。分析阶段:通过对种子图像的扩散特征进行主成分分析(PCA),形成时间依赖的基BtB_tBt​,作为语义结构表示。合成阶段:结构引导帮助在引导图像IgI_gIg​的指导下构建输出图像III的结构模板,而外观引导从相同种子生成的兄弟图像Iˉ\bar{I}Iˉ中借用外观细节。FreeControl支持多种控制条件、模型架构和自定义模型文件,能够处理大多数现有无训练方法失败的挑战性输入条件,并且与基于训练的方法相比,实现了竞争性的合成质量。

2024-02-13 01:03:01 228

转载 论文解读 One-step Diffusion with Distribution Matching Distillation

本文介绍了一种名为分布匹配蒸馏(DMD)的新技术,旨在加速扩散模型的图像生成过程,同时保持高质量的输出。DMD通过将扩散模型转化为一步生成模型,极大地提高了生成速度,达到了实时生成的目标。通过最小化真实与生成分布间的KL散度和引入回归损失,DMD能够在加速生成的同时,保证图像的多样性和质量。

2024-02-12 00:04:48 1888

转载 论文介绍 VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder

本文介绍了一种从文本提示高效且灵活生成3D对象的新方法。通过采用轻量级网络从多视图图像获取特征体积,证明了这种方法能够有效扩大扩散模型训练所需的训练数据规模。

2024-02-10 23:50:51 122

转载 ChatGPT4.0真的比3.5聪明吗?!

ChatGPT4.0比3.5拥有更强大的理解能力和分析能力,如果你想要获取实时新闻、研究成果和热点信息,如果你需要根据你的文字需求生成创意的图片,如果你需要更深度的支持和更高级的分析,那ChatGPT4.0将是你的不二选择。然而如果在经济上有一定困难或者暂时不需要4.0的同学们,3.5的正确使用方法大家也要学会。接下来为大家提供一些ChatGPT一本正经的胡说八道的搞笑画面(以下来源:一位科班出身的营养师 @小红书)我们可以明显发现,ChatGPT3.5的中文回答。因为两个人有复杂的“历史背景和人物关系”

2024-02-09 05:47:30 176

原创 raise AssertionError(“Torch not compiled with CUDA enabled“)

遇到的问题,就是 GPU driver 以及cuda都装完了,pytorch装完之后想试试代码。结果报错,raise AssertionError(“Torch not compiled with CUDA enabled”)。

2022-11-15 19:34:15 5973

原创 Pytorch只更新预训练模型的部分参数

假设有一个训练好的模型,并且我们只想微调部分参数。比如,这里我们只想更新最后一部分的参数:可以看到,这里的模块叫b4。我们可以直接通过获取模块的名字来进行更新:也就是说 只要模块名字包含b4 就会让他跟新网络。对应的optimizer 的设置如下:然后直接训练就行。也可以直接 把这些符合条件的 parameters 加入 list中,并传给 optimizer直接训练就行。##...

2022-06-25 01:34:29 3049

原创 抗锯齿下采样(Anti-aliasing/down-sampling)-python-numpy 实现

抗锯齿下采样(Anti-aliasing/down-sampling)-python-numpy 实现这篇内容会涉及:卷积和抗锯齿下采样。代码请访问:https://github.com/LonglongaaaGo/ComputerVision问题描述如果直接对图片进行上采样,比如说用nearest 线性插值,我们能够发现上采样的图片会有很多锯齿,如上篇 从Nearest插值到Bilinear插值的分析与python实现。其实如果直接进行下采样,也会出现这个问题,效果如图所示:上图,左边是原图(

2022-02-27 03:14:54 4127

原创 从Nearest插值到Bilinear插值的分析与python实现

从Nearest插值到Bilinear插值的分析与python实现这篇主要是想分析一下Nearest差值和Bilinear差值的计算细节,然后附上对应的Python实现代码。自己实现的代码,希望对你有帮助:https://github.com/LonglongaaaGo/ComputerVision效果先给出实现效果:首先我们有一张小狗狗:然后用Nearest 上采样,能够得到:可以看到,有很多的锯齿,看起来不是很完美。然后试试这个实现的Bilinear 上采样:能够看到整体上柔和很

2022-02-04 11:44:43 4710

原创 生成对抗网络 Generative Adversarial Nets(GAN)详解

生成对抗网络 Generative Adversarial Nets(GAN)详解近几年的很多算法创新,尤其是生成方面的task,很大一部分的文章都是结合GAN来完成的,比如,图像生成、图像修复、风格迁移等等。今天主要聊一聊GAN的原理和推导。github: http://www.github.com/goodfeli/adversarial论文: https://arxiv.org/abs/1406.2661背景介绍在GAN算法出来之前,关于生成的task表现一直都不太好,因为之前的方法由于在最

2022-01-30 21:54:36 2967

原创 ubuntu 中 screen的使用

ubuntu 中 screen的使用参考这两篇,亲测有效https://blog.youkuaiyun.com/euzmin/article/details/105090217https://www.cnblogs.com/quan-coder/p/9857883.html

2021-12-22 01:10:29 343

原创 Evolutionary algorithm (遗传算法)介绍

Evolutionary algorithm (遗传算法)介绍Evolutionary algorithm 遗传算法, 实际上也是机器学习里面一个很重要的分支。为什么呢,因为他在之前几十年也是和深度学习一样非常火热流行。现在也有很多人在利用遗传算法做相关研究,还是比较流行的算法之一。Evolutionary algorithm 算法是受到自然界的一些启发,通过种群优化去解决一些相关的任务,比如做数独,解决一些实际的规划问题,组合优化问题。这里 附上一个非常好玩的链接: 小摩托车 这个demo就是不断地

2021-12-10 09:56:48 2892

原创 强化学习On-policy vs Off-policy

强化学习On-policy vs Off-policy这里我们讲讲强化学习中on-policy和off-policy的区别。实际上这个区别非常简单,就是说如果算法在更新它的policy的时候,它是依赖于前面的Q value function的话,那么它就是on-policy的。反之如果它是依赖于随机的一个输入或者人为的操控,那么它就是一个off policy的。具体来说就是由于在算法更新我们value fcuntion 的时候,实际上我们就是基于这个现有的policy去更新这个value的functi

2021-12-10 08:30:11 815

原创 基于Monte Carlo 的策略评估

基于Monte Carlo 的策略评估在强化学习中,Monte Carlo 是一种被广泛用到的方法。这种方法主要是从经验 experience 中拟合数值,本质上就是从不同的采样中获得结果,然后将其平均。由于最后当采样的数量达到一定的数量级后,这种方法可以很好地拟合我们想要的函数。这里有一个很有意思的demo,展现的是Monte Carlo 如何应用在评估 π\piπ 的数值上。https://academo.org/demos/estimating-pi-monte-carlo/如上图所示,如果

2021-12-08 23:11:02 2800

原创 cv2 undefined symbol: g_date_copy (or qt.qpa.plugin: Could not load..)解决

cv2 undefined symbol: g_date_copyor qt.qpa.plugin: Could not load问题背景:这次就是想用Qt5 去做一个GUI,结果一运行就报这个:QObject::moveToThread: Current thread (0x7fc0f7435300) is not the object’s thread (0x7fc0f9f02cc0).Cannot move to target thread (0x7fc0f7435300)qt.qpa.

2021-09-06 23:35:55 586

原创 RuntimeError: Error building extension ‘fused‘&FAILED: fused_bias_act_kernel.cuda.o&ninja: build sto

RuntimeError: Error building extension ‘fused’&FAILED: fused_bias_act_kernel.cuda.o&ninja: build stopped: subcommand failed.问题如下:RuntimeError: Error building extension ‘fused’: [1/3] /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused -DTORCH_A

2021-08-17 17:47:52 13474 18

原创 未运行任何程序,GPU使用率却很高(解决方案)

未运行任何程序,GPU使用率却很高背景,服务器的电脑什么程序也没跑,而且查看显存占用也是0.很奇怪的是,显卡的使用率却很高,如下图所示解决方法:执行命令:nvidia-smi -pm 1将驱动模式设置为常驻内存。问题解决,如下图所示:...

2021-07-31 09:06:21 16089

原创 ubuntu和win远程连接

ubuntu和win远程连接想要用win去连接ubuntu有用的链接如下:首先是安装,以及一些注意事项:https://www.cnblogs.com/xuliangxing/p/7560723.html然后是遇到一些错误如何解决:https://blog.youkuaiyun.com/u014447845/article/details/80291678后面发现连接之后,还是会灰屏,并且只有一个光标解决方案如下:https://www.cnblogs.com/wincai/p/5063023.htm

2021-07-17 12:42:10 175

原创 PIL,CV2,pytorch的图片维度顺序

PIL,CV2,pytorch的图片维度顺序PIL:img = Image.open(file).convert('RGB')w,h = img.sizeCV2:image = cv2.imread(filepath)image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)h, w, c = image.shapepytorch:batch,channel,h,w注意区分...

2021-05-15 08:56:19 2039 4

原创 Pytorch 多GPU TypeError: zip argument #1 must support iteration

碰到Pytorch 多GPU TypeError: zip argument #1 must support iteration这个问题时,考虑如下解决方式:1.尝试在模型forward的时候,不要输入list类型的数据,而是将其改成tensor的形式。实在不行就分开写。这样可能可以解决问题2.model 的forward 方法里,输出不能有常量,必须也是要求tensor的格式,先想办法改一下代码,输出常量在多GPU下是行不通的...

2021-05-01 10:45:38 2375

原创 Ubuntu 重启显卡驱动失败解决办法

Ubuntu 重启显卡驱动失败解决办法开机的时候发现显卡驱动失效了,直接导致循环登录其实问题就在于,自己装好显卡驱动之后,直接,因为内核的更新。导致计算机在开机的时候直接启动新的内核。然而新的内核和安装的驱动不匹配。NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and runn.

2021-04-03 14:44:15 2206 2

转载 Docker实现自动重启和容器自动重启

实现在服务器重启后自动启动docker服务以及容器(类似于守护进程服务)。重启启动docker服务systemctl enable docker.service重启启动docker容器启动时候使用 --restart=always参数。docker run -dit \--restart=always \ #配置为自动重启--name nginx \--network host \nginx已经启动了的容器可以更新启动配置。docker up...

2021-03-22 18:52:56 879

原创 Docker Error loading config file XXX.dockerconfig.json permission denied和 Docker Got permission 解决

Docker Error loading config file XXX.dockerconfig.json permission denied和 Docker Got permissiondenied 的 解决1.如果是 ==》Error loading config file XXX.dockerconfig.json - stat /home/XXX/.docker/config.json: permission denied在使用Docker容器技术的过程中,执行完某条命令可能会出现如下提.

2021-03-19 09:10:59 1597

install_docker.sh

ubuntu 系统下 docker 和 nvidia-docker 一键安装脚本 使用: sh install_docker.sh

2019-12-11

对数几率回归练习训练集和测试集

对数几率回归练习数据,对应的两个txt文件,有测试数据和训练数据,对应的每一行是数据集, 训练集有三列,最后一列是label ,其他两个是特征, 测试集有2列,都是特征

2019-04-12

对数几率回归练习数据

对数几率回归练习数据,对应的两个txt文件,有测试数据和训练数据,对应的每一行是数据集, 训练集有三列,最后一列是label ,其他两个是特征, 测试集有2列,都是特征

2019-04-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除