
Deep Learning
文章平均质量分 90
程序猿老甘
NTU博后,主要研究领域为图形学,计算机视觉,几何分析等。
展开
-
GAN网络系列博客(三):不受坐标限制的GAN(StyleGAN3)
关于StyleGAN3,其贡献已经在题目中说的非常清楚了,不受坐标限制(Alias-Free)。在没有认真看正文文字内容的前提下,仅通过上面的图片,我对StyleGAN3实现的猜测是,首先找到对应的语义区域,之后建立非刚性的对应关系,在此基础上指导生成模型,并控制生成对象不超过语义限定区域,使得整个变换过程类似于非刚性形变过程。带着这样一种猜测,我们来看一下StyleGAN3的具体实现。原创 2023-04-17 19:26:38 · 1606 阅读 · 1 评论 -
火遍全球的ChatGPT技术简介与主干网络代码
如果说当下最火的AI技术和话题是什么,恐怕很难绕开ChatGPT。各大厂商都在表示未来要跟进ChatGPT技术,开发在自然语言处理智能系统,可见其影响力。本篇博客追个热度,来简单的介绍下ChatGPT到底是一项什么技术,究竟如何完成复杂的语言处理任务的。原创 2023-02-12 14:55:14 · 8548 阅读 · 0 评论 -
Neural-Pull曲面重建程序配置
前几天一篇曲面重建文章的审稿意见回来了,要求加近三年对比方法。在github上搜了一些项目,大部分的环境都很难配置成功。最后找了一个ICML2021年的点云重建项目作为实验对比。原创 2023-01-07 21:58:36 · 889 阅读 · 3 评论 -
GAN网络系列博客(二):改善StyleGAN的图像质量
在上一篇博客中,我们已经介绍了StyleGAN的基本实现。其主要通过间接隐空间映射,消除了对初始输入分布的硬性约束,能够比较灵活的迁移不同的风格到生成器的各层中。但是,该项工作生成的人脸图像,仍然存在一些不稳定的情况,其图像质量以及语义结构不能被保证。为了解决该问题,StyleGAN2被提出。原创 2022-11-10 19:24:57 · 1508 阅读 · 0 评论 -
GAN网络系列博客(一):用于人脸生成的StyleGAN结构
在未来的一段时间,我会开一个小专题,来介绍下GAN网络的一些经典论文。希望对那些想要入坑的同学提供一点点帮助。考虑到StyleGAN系列论文在相关领域的影响力,我们首先来介绍下StyleGAN的开山之作:A Style-Based Generator Architecture。原创 2022-10-21 00:11:59 · 1675 阅读 · 1 评论 -
我复现的第一个神经网络: LeNet
学习深度学习已经有小一年的时间,看了很多视频和书本内容,学习了很多代码,可始终感觉认知不够扎实。结合李沐老师的视频课程,我决定在本博客中介绍下复现LeNet的过程。代码基于Pycharm2021平台,选用python3.8版本+Pytorch1.12.1+cu116。基本上把各个包的版本都刷到最新版本,以方便后续的网络升级和向后兼容。原创 2022-09-07 18:36:22 · 2005 阅读 · 3 评论 -
基于Pycharm运行李沐老师的深度学习课程代码
最近在b站看李沐老师的深度学习课程,受益颇多。不过觉得光看视频实在是不过瘾,最好还是能实际的玩起来。鉴于我还是习惯使用pycharm,且不需要过多的中间过程展示,所以代码的编写基本都是在pycharm进行。由于李沐老师的代码主要是在Jupyter运行的,在pycharm上使用会略有差异。本篇博客以求解线性优化问题代码为例,来谈一谈在pycharm运行相关代码的一些注意事项。原创 2022-08-23 17:00:08 · 7361 阅读 · 6 评论 -
CVPR2022Oral专题系列(三):图像增强主干网络MAXIM
随着Transformer和多层感知机技术的普及,一些过去难以解决的计算机视觉问题,能够被处理,并在实际的应用中加以使用。但是,这里仍然存在一些挑战,包括:对高分辨率图像的兼容性较差;对局部注意力缺乏有效的处理方法。今天,我们来介绍一篇CVPR2022Oral论文,即多轴MLP结构MAXIM,以解决上述问题。...原创 2022-08-05 18:24:51 · 3766 阅读 · 3 评论 -
CVPR2022Oral专题系列(二):多帧图像合成与增强
在本系列的上一篇博客中,我们已经介绍了一种低光图像的处理方法。对于一般性的手持拍照设备,受限于抖动以及对象运动的影响,使得单帧图片会产生模糊。为了完成对类似图像的质量增强,Burst Image Restoration被提出。其原理为通过设备所获取的一个图像序列,通过对帧间相关信息的分析,以实现对模糊的处理,进而增强图像质量。本博客今天介绍一种方法,Burst Image Restoration and Enhancement [1],以完成该目标。......原创 2022-08-02 19:08:47 · 6925 阅读 · 7 评论 -
CVPR2022Oral专题系列(一):低光增强
这周立了Flag,一定要出一篇关于CVPR2022Oral论文解度博客。刚刚完成一个期刊的大修,马上就打开优快云,就敲起键盘来。可见做什么事儿,都得有一口气顶住,才能不拖沓。闲话少叙,今天我们介绍的文章是大连理工大学的研究者所提出的一项关于低光增强的工作。...原创 2022-07-24 20:33:46 · 4669 阅读 · 3 评论 -
VS2019+Libtorch实现基于C++的图像语义分割
基于深度学习框架的图像语义分割算法在近年成为主流研究方向,包括像DeepLab系列,U-Net等,在ImageNet,Cityscapes,PASCAL VOC 2012等库上,都获得了不错的性能。在之前的博客中,我们已经介绍了DeepLabV3+。我在最近的研究中,希望可以直接在C++上部署类似的图像语义分割程序,并在VS平台集成的项目中使用其强大的图像语义分析功能。原创 2022-06-02 18:13:15 · 2816 阅读 · 4 评论 -
基于Pytorch实现的图像分割算法: DeepLabV3+
图像分割可以算是图像处理领域最重要的几个问题之一了。随着自动驾驶,广告推荐,手机照片处理,知识图谱等智能应用的快速普及,基于语义分析的图像分割、理解与识别变得越来越重要。近年来比较热的视觉领域工作,很大比重是围绕如何使用大规模数据,结合结构优良的深度网络模型,实现图像分割计算。今天,我们就来学习一项该领域的著名工作(DeepLabV3+)。原创 2022-05-31 14:17:52 · 24466 阅读 · 18 评论 -
Nvidia最新三维重建技术Instant-ngp初探
最近逛技术论坛,发现一个牛到了不得的英伟达项目,刚刚发布,其全称为:Instant Neural Graphics Primitives,项目链接为:https://github.com/NVlabs/instant-ngp该项目提出一个称为Multiresolution Hash Encoding的技术,能够大大提升NeRF网络的训练速度,使之可以从几分钟缩短到几秒钟(非常惭愧的是,NeRF这个被广泛接受的三维重建技术我也是第一次听说)。其演示结果好的让人震惊。...原创 2022-04-22 20:44:15 · 27530 阅读 · 6 评论 -
Win10快速部署基于Pytorch(GPU)的深度学习环境
目前,接受度最高的深度学习框架恐怕就是Pytorch了。相对来说,Pytorch部署比较简单,版本之间的兼容程度明显好于Tensorflow。使用一些预先定义好的框架实现深度学习功能还是很方便的。这篇博客基于我对Pytorch代码部署的一些经验,提炼出一些部署该平台的注意事项,希望能够帮助那些对于该平台没有任何知识背景的同学,尽快上手。1. 基于Anaconda虚拟环境的Python环境首先我们需要安装Pycharm与Anaconda。Pycharm:下载 PyCharm:JetBrains 为原创 2022-04-05 14:29:22 · 2097 阅读 · 3 评论 -
深度卷积神经网络(CNN)特征层的可视化
对卷积神经网络有所了解的同学应该都知道,网络内部的特征层,随着越靠近最终输出,其特征所代表的语义信息就越明显。我们能够通过中间层的信息,直观的看到网络学习过程中,哪些像素的权重比较高,这些权重高的像素集中在什么区域,进而知道网络对数据理解的基本过程。原创 2022-03-17 16:31:38 · 9442 阅读 · 1 评论 -
火爆科研圈的三维重建技术:Neural radiance fields (NeRF)
如果说最近两年最火的三维重建技术是什么,相信NeRF[1]是一个绝对绕不过去的名字。这项强到逆天的技术,一经提出,就被众多研究者所重视,并投入人力对该技术进行深入研究并改进。仅仅过了不到两年的时间,NeRF及其变种网络已经成为重建领域的主流方法。由此可见,NeRF技术的新颖性与实用性。今天,我们就来看一看NeRF是个啥,学习以下该方法到底强在哪里。1. 简介NeRF全称为Neural Radiance Fields(神经辐射场),是一项利用多目图像重建三维场景的技术。该项目的作者来自于加州大学伯..原创 2022-02-20 17:43:41 · 35535 阅读 · 2 评论 -
Neural-Enhance:图像增强与超分辨率开源项目
最近因为在做图像颜色迁移相关的研究工作,顺便也看了一些下图像增强与超分辨率的项目。因为在颜色迁移前,如果能够对图像的细节进行增强甚至重建,那么颜色迁移的结果肯定会好一些,所以我希望尝试添加图像增强的相关功能到颜色迁移中来。今天就来介绍一个我在github上发现的项目:Neuro-Enhance.Project Link:GitHub - alexjc/neural-enhance: Super Resolution for images using deep learning.1. 简介2.原创 2022-01-22 14:18:58 · 5803 阅读 · 1 评论 -
图像颜色迁移专题介绍(三): Deep Examplar-based Colorization
在之前的两篇博客中,我们已经介绍了关于color transfer在2015年之前的一些主流的研究思路,即在相应的颜色空间中,利用语义对应关系,实现语义一致的颜色迁移。博客链接:图像颜色迁移专题介绍(一):Global Color Transfer图像颜色迁移专题介绍(二):Correspondence稍微对color transfer有些研究的同学,就能够发现上述传统方法的缺点,即语义对应的泛化性问题。通常,我们在指定参考图像时,主观上应该只是一个比较粗略的概念,觉得某张图片的颜色很好,具有美原创 2022-01-16 12:53:13 · 3723 阅读 · 3 评论 -
Libfacedetection项目配置,基于VS2019+OpenCV3.4.6
玩人脸识别的同学应该知道于仕琪老师主导的人脸识别开源项目libfacedetection, 相比传统的Haar特征级联,利用CNN训练的人脸识别模型能够更准确,更高效的检测到人脸位置。原来用过这个项目做人脸识别,但是经过一段时间,实在找不到相关的程序了,最近就开始尝试重新配置项目到VS2019上。本篇博客就来介绍一下具体的配置细节。1. Cmake编译首先需要在github上下载libfacedetection项目,链接如下:https://github.com/ShiqiYu/libfacedet原创 2022-01-05 15:15:35 · 2320 阅读 · 2 评论 -
PointCleanNet: 一种基于数据驱动的点云去噪方法
最近投文章,不止一个审稿人向我推荐了PointCleanNet用于稠密点云去噪。查了一下,是Ovsjanikov教授挂名的文章,高手背书,果断决定研究一下。原创 2021-07-12 12:17:51 · 4628 阅读 · 18 评论 -
旧版本Tensorflow深度学习代码在Ubuntu系统的配置(以SampleNet项目为例)
最近论文补实验,需要dai'ma'fu'xian复现SampleNet算法。调试也是经过一番周折,在这里把一些重要的信息记录下来,方便以后查阅。问题:最典型的就是这个问题:../tf_grouping_so.so not found根据网上查阅的资料,大概率是因为版本不一致产生的编译问题。所以,需要查看文档确定项目对应的版本,重新安装软件以解决该问题。版本一致性。源代码中共有三个项目,选择reconstruction项目,其说明文档推荐的相关软件包版本如下:The code ha原创 2021-04-01 14:09:07 · 256 阅读 · 0 评论 -
“tf_grouping_so.so or tf_XXX_so.so not found” 的解决方案
我们在配置深度学习论文的tensorflow代码项目时,经常会遇到上述问题,即tf_XXX_so.so文件找不到。我查看了国内国外的相关网站,大部分人都认为是版本问题,但是我调整版本后,还是解决不了。经过我的一系列实践,最终还是解决了该问题。这里把解决问题的一些步骤列出来,方便查阅。以下代码均基于linux实现。1. 查看对应的sh文件。我并不懂这个so文件的相关技术细节,只是知道这个文件是一系列混合编译文件的一个链接接口,由sh脚本生成。不能生成so文件,说明是和脚本文件有关系。我们打开对原创 2021-03-31 11:47:18 · 1355 阅读 · 0 评论