- 博客(60)
- 资源 (16)
- 问答 (4)
- 收藏
- 关注
原创 Lia 原理
W_rd: driving image通过编码器E 映射成512维向量,然后通过MLP映射成20维视觉向量A_rd,与字典D中的向量结合得到w_rd,字典D包含了代表不同视觉变换的正交基,字典D是训练中学习得到的,每个向量有特定语意。若id不同,则采用relative transfer,即将第一帧与驱动帧(target)的变化差异施加到源帧(source)上,并且要求源人脸和第一帧的pose要相似。X_s (source image )映射到编码Z_sr,通过W_rd方向上的变化,得到新的编码Z_sd。
2024-05-09 12:09:47
510
原创 DInet
adaat:空间变形,在人脸姿态检测里面有引用,在特征通道空间中进行仿射变换,【R,T,S】,实现错位图像生成,保证生成的嘴型姿态跟带预测嘴型帧的姿态一致。输入:随机5帧参考帧reference image,随机一张待生成的mask后的原图source image,source image对应的音频。c):refs:fintune 固定参考帧,为video.refs,给这连续5帧每一帧配固定的5帧参考帧。2):处理这5帧连续帧,:source_frames:连续5帧的crop_moth。
2024-05-08 11:43:10
561
1
原创 各式各样的轮子们
有时候直接进行resize会有形变,所以想到这样的方式,同比例缩放,然后补0。torchvision中是用的PIL。在推理时需要用opencv。
2023-08-29 10:25:19
261
原创 音频降噪之人声分离
集成目前最先进的从音频文件中分离人声的源分离模型。本工程,将Ultimate Vocal Remover GUI v5.5.1界面工具,改写成可以在服务器端批量推理的工具。界面仓库地址:https://github.com/Anjok07/ultimatevocalremovergui。
2023-07-24 11:47:35
4971
4
原创 字幕切分视频
开口说话到,发出音,大概有13,14,12,20,帧左右的误差,也就是说有0.8S左右的误差,所以建议,如果取无声音频,end要往前挪10帧。WhisperX:跑完:143S ,11段前,对10段,18段中,对17段,5段后,对5段。一句话说完,从没有声音到完全闭上嘴,大概有5帧,8帧,10帧左右,大概有0.4S左右的误差。Tiny: 跑完:142S ,11段前,对0段,18段中,对10段,5段后,对5段。Large:跑完:941S,11段前,对0段,18段中,对2段,5段后,对4段。
2023-07-18 16:53:20
2095
原创 VS上配置docker步骤记录
docker images. #列出本地主机上的镜像列表。它会显示镜像的相关信息,如镜像ID、仓库名称、标签、大小等。docker images. #列出本地主机上的镜像列表。它会显示镜像的相关信息,如镜像ID、仓库名称、标签、大小等。docker ps #列出正在运行的容器。它会显示容器的相关信息,如容器ID、镜像名称、创建时间、状态等。docker ps #列出正在运行的容器。它会显示容器的相关信息,如容器ID、镜像名称、创建时间、状态等。#将当前用户添加到docker用户组中。
2023-07-03 14:15:34
1381
原创 Wav2Lip原理以及训练
常规SyncNet:功能:音频和嘴唇同步实质:判断音频和唇形在某个共同参数空间下的相似性。网络结构:一种伪孪生网络结构,分别提取嘴形特征和音频特征,然后通过对比损失计算两者之间的距离。
2023-06-26 21:01:13
15952
16
原创 《Towards Fast, Accurate and Stable 3D Dense Face Alignment 》3DDFA-V2论文研读和工程实现
脸型问题的一个方案
2022-10-13 19:51:55
1670
2
原创 《MeInGame: Create a Game Character Face from a Single Portrait 》论文解读
《MeInGame》
2022-08-31 16:53:55
1713
原创 高保真数字人头《High-Fidelity 3D Digital Human Head Creation from RGB-D Selfies》
3D人头形象
2022-06-23 16:13:28
2213
3
原创 Interpretable Convolutional Neural Networks研读
(感觉跟上一篇看的可解释cnn没什么差别,都是在高层的卷积层中的每个卷积核加一个loss,查看代码,所加的loss就logistic或者softmax,正在学习中,如果理解有误的地方,敬请谅解并欢迎指出)摘要:为了解释高层卷积层CNN中的知识表示,本文在传统CNN基础上提出可解释CNN。可解释CNN,能够在高层卷积层的每个卷积核代表一个特定的目标部件(比如猫头,猫脚等).可解释CNN,使用传统的训练集训练,不作任何部件标注,能够在学习阶段给高层卷积层的卷积核自动分配每个特定部件。可以将可解释CNN应用在
2021-01-07 15:31:53
1247
原创 Interpretable CNNs for Object Classification 研读
摘要:在分类任务中,本文提出一个在深度神经网络中学习可解释性CNN的方法。在此方法中,在深层的可解释性CNN中,每个核可以解码目标的特定部件。我们使用常规数据集,不需要对数据额外的标注或者提供纹理信息作为监督训练。我们的方法在学习过程中,能够自动对高层卷积网络的每个核分配一个目标部件类别。可解释性CNN中,显性知识表示可以帮助人们理解CNN的内部逻辑结构,即对于一张输入图像CNN提取的什么模式用来预测。实验表示,可解释性卷积网络比传统卷积更加有语义意义。背景几年来,卷积网络在不同的领域中都取得很优异的
2021-01-04 11:17:39
922
原创 Centernet 个人理解笔记
一,Centernet骨干网络之DLASeg1,DLA34-base结构代码块:self.level0 = self._make_conv_level( channels[0], channels[0], levels[0])self.level1 = self._make_conv_level( channels[0], channels[1], levels[1], stride=2)self.level2 = Tree(levels[2],
2020-12-21 16:56:11
3023
7
原创 关于yolov5评价指标之精确率和召回率实现
一,原理公式主要的事说三遍,精确率和准确率不是一个东西!精确率和准确率不是一个东西!精确率和准确率不是一个东西!我们平时在衡量一个模型的性能的时候,通常用的是精确率和召回率。TP是正样本预测出正样本数量。FP是负样本预测出正样本数量。FN是正样本预测出负样本数量。二,对于多目标检测任务,怎样自己码代码求precision和recall?(前提必须有标注信息。)1,思路解析:对于多目标检测任务,TP(true positive)表示预测出的正确的框,即通过模型预测出的框,逐个与该图像的标注框求
2020-12-16 16:43:30
19649
10
原创 YOLOV5解析
网络由三个主要组件组成:1)Backbone:在不同图像细粒度上聚合并形成图像特征的卷积神经网络。2)Neck:一系列混合和组合图像特征的网络层,并将图像特征传递到预测层。3)Head:对图像特征进行预测,生成边界框和并预测类别。对于YOLOV5,无论是V5s,V5m,V5l还是V5x其Backbone,Neck和Head一致。唯一的区别在与模型的深度和宽度设置。总结构框架:下面逐一解析:1)Backbone先代码,有个大概脉络:# YOLOv5 backbonebackbone:
2020-10-13 15:38:05
54165
13
原创 相关滤波类跟踪概述(不断更新)
一:深度特征+相关滤波代表:SRDCF, C-COT, ECO , DeepSRDCF, STRCF, UPDATUPDATUPDAT在ECO基础上改进。论文贡献:①以经典深度学习网络作为backbone,深浅特征区别对待。(浅层特征使用HOG+CN,深层网络使用ResNet 50中的第四个Conv_block输出的feature)论文列出两种trick分别对深层和浅层的影响。(一)Data Augmentation。浅层特征主要提取文理颜色等特征,对外观形变等影响很大,深层特征主要提取语义
2020-06-05 16:56:15
1305
原创 siamRPN论文理解与复现
**论文地址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf论文讲解:siamRPN的网络结构由两部分组成,siam+RPNSiam部分:主要功能是提取特征RPN部分:功能为产生候选框以及二分类vectorRPN流程:①从主干网络得到template Frame 特征向量和detection Frame特征向量之后,对这两组特征向量分别使
2020-05-31 18:25:18
6985
16
原创 FairMOT理解与实现
理解:(1)概述:多目标跟踪,单纯跟踪能力不足以完成任务,所以,不同于单目标跟踪,这里加入了检测任务,可以将多目标跟踪任务看成为目标检测+重识别任务。(2)论文网络结构:文中网络结构分3大部分:网络结构在:.\src\lib\models\networks\pose_dla_dcn.py中。①:Encoder-decoder 部分网络中,这是backbone network部分,主干网络为DLA-34(34层的DLA),最终input(HxW)->output(H/4xW/4)Enco
2020-05-28 18:29:19
14035
32
原创 以代码的脉络理解KCF论文思想
以代码的脉络理解KCF论文思想1:void init(const cv::Rect &roi, cv::Mat image);第一帧图像用来初始化。里面有两个重要步骤, cv::Mat getFeatures(const cv::Mat & image, bool inithann, float scale_adjust = 1.0f);和void train(cv::Mat ...
2019-12-26 12:44:13
489
原创 细粒度分析--RACNN
论文:https://ieeexplore.ieee.org/document/8099959代码:https://github.com/11-626/RA-CNNCVPR2017的Oral文章。概述:在multiple scales上,以类似cascade network的形式使得网络相互增强学习,进行基于region 的特征表达。横向:传统vgg分类网络,用来classificati...
2019-08-24 15:33:51
2392
原创 细粒度分析--WS-DAN
论文:https://arxiv.org/pdf/1901.09891.pdf代码:https://github.com/GuYuc/WS-DAN.PyTorch论文主要训练流程及思想为:(1)生成attention maps;(2)Bilinear Attention Pooling(BAP); (3)loss设计(1)生成attention maps①首先使用Inceptionv3...
2019-08-09 10:47:26
3885
5
原创 Pyramid Scene Parsing Network理解与复现
代码:https://github.com/hszhao/PSPNet论文:https://arxiv.org/abs/1612.01105论文理解:文章针对的问题:(1)Mismatched Relationship关系匹配不明确:很多分割场景中,单独看某个目标很容易误分割,需要将目标放在全图中才能确定目标。比如,上图第一行中水上面的目标,应该是coat,而不会是car。即需要结合上下...
2019-07-26 17:31:48
671
原创 Mask CNN环境搭配与模型训练中踩坑记录
(一)搭建caffe2版Caffe2已合并到pytorch框架里了,所以搭建caffe2就得搭建pytorch。在搭建的过程中,各种坑,后来定位到才知道,pytorch,要求cudnn7+,而cudnn7+要求对应的cuda在9+,然而,升级cuda,对整个服务器的影响较大,为了不影响其他人的使用,放弃caffe2版本的搭建。所以在搭环境前,一定要看好需要的版本号。(二)搭建tensorf...
2019-03-28 11:17:08
1403
7
原创 视频理解研究
相比较于视频研究,基于深度学习的图像这块,已经取得很不错的成果。目前,在基于深度学习的视频研究这块,有一下几种方式:(1)逐帧处理融合思想:逐帧提取图像特征,然后融合深度特征图。弊端:简单粗暴带来的弊端有:前后帧之间存在大量信息冗余,冗余计算量太大。(2)ConvLSTM这种方法主要依赖于LSTM挖掘每帧之间的时序关系,计算量很大,很难训练,不常用在视频分析中。(3)主流的研究方向基本...
2018-12-18 11:33:33
9209
原创 Real-world Anomaly Detection in Surveillance Videos解读与实现
解读:(1)文章思想:此文是在弱监督下训练的,具体而言,就是在一段视频中,只关心是否有异常事件的存在,而不关心具体的异常类型以及异常发生在哪些帧内。基于此,文章的主要实现过程为:首先,使用C3D提取视频特征,文章以32帧为一个bag进行处理。C3D提取视频时空特征是由Facebook团队提出来的。此文章使用公开的C3D预训练模型提取视频特征,然后将提取好的特征拿出来,送到三层全连接层中...
2018-12-03 10:51:41
9299
77
原创 Caffe 各层解析
①Data数据层是所有模型的最底层,主要有transform_param{},与data_param{}两中参数设置,data_param{}是数据集来源与训练批大小一些的设置,这个因人而异,根据自己实际情况设置好就行。其中,batch_size是根据训练图像大小,GPU使用情况设置的。transform_param{}是数据预处理的一些设置,一般有:mirror,表示是否开启镜像,crop_s...
2018-09-18 16:18:30
1289
原创 深度学习综述之分类(适合深度学习面试者看)
目前图像方向,主要用深度学习进行分类,定位(回归),检测,那么她三主要区别是什么呢? ①分类:是什么? ②定位:在哪里?是什么?(单目标) ③检测:在哪里?分别是什么?(多目标) 根据不同的任务,我们会选择不同的网络进行训练。首先,分类:①前辈且经久不衰的分类网络:GoogleNet,VGGNet,ResNet(1)GoogleNet 成就:2014年冠军,错误率6.66%。...
2018-09-14 15:39:17
6945
原创 稀疏自编码
1 怎样理解稀疏性?为什么要加上稀疏性限制?目的是什么?当神经网络遇到什么问题时需要加上稀疏性? 答:自编码神经网络是一种无监督学习算法,它使用BP算法,让目标值等于输入值(O=I)。 那么问题来了,为什么要这样做?直接用I不就好了? 的确,我们并不关心O,我们关心的是中间层S。 中间层S有降维作用,但这种降维与PCA不同,PCA是提取数据的主要特征,直接去掉次要特征,而这里的S层是学习了数
2017-08-18 15:02:53
513
原创 ResNet
1网络结构: ResNet将网络往深里设计的思想发挥到了极致,据说有一千多层的,在ResNet网络中,深刻体会到没有最深,只有更深!那么问题来了,Resnet是怎么做到在这么极深的网络下,训练成功的?因为我们知道,随着网络层数的增加,需要训练的网络参数将不断增加,训练强度将大大提升,对于这种上千层的网络,面临的已经不仅仅只有过拟合的问题了,还有Degradation的问题。 从Resnet的
2017-08-17 21:29:34
705
原创 VGGNet
1 网络结构: 以224*224输入图片为例: 感觉VGGNet就是加深版的AlexNet,都是卷积与池化的叠加,最后再加两层全连接,然后softmax输出。VGGNet有5段卷积,每段卷积由2~3个卷积层后加一个最大池化组成。卷积核的数量也随着层数的增加而增多。VGGNet也沿用了AlexNet数据增强的方法(Multi-Scale)防止模型过拟合。 相较与AleNet,VGGNet最大
2017-08-17 21:13:42
5426
原创 win10+python3.5+pycharm5.0+CPU 安装tensorflow
1首先安装python3.5(一定要3.5.x),pycharm5.0 python3.5:一路next就行(最好把add python3.5 to PATH勾上,免得到时候自己手动添加到系统环境变量,麻烦),这里有位道友写的很详细,详见:http://www.cnblogs.com/Alier/p/6362652.html 然后在命令符中输入python,出现python版本信息就说明你的py
2017-07-13 20:26:50
4978
原创 VS+Opencv 新库导入过程(以AVS视频解码库导入为例)
环境:VS2010+opencv2410 这里只要VS与Opencv能配置起来就行,在Opencv配置VS的时候,不是所有opencv版本与所有vs版本都能配置成功的。安装好Opencv之后,在安装目录下的opencv/build/x86(这个是跟你电脑系统版本有关的,如果你的电脑是64位的,就该选择x86,同理,32位的该选x64),在这个文件夹里,找与你vs匹配的文件,比如:vc10—>vs2
2017-06-05 10:20:35
2355
原创 Win10+python2.7.6+opencv2.4.13环境下, 调用cv2.VideoCapture()失败的解决方法
1.首先将 F:\opencv\sources\3rdparty\ffmpeg (看你的opencv装在哪的,写好路径就行,我的是装在F盘的)添加到系统目录。 2.然后将F:\opencv\sources\3rdparty\ffmpeg下的opencv_ffmpeg.dll 和opencv_ffmpeg_64.dll 重命名为opencv_ffmpeg2413.dll 和 opencv_ffm
2017-05-19 20:35:26
1642
原创 手推logistic
用x1,x2,...,xnx_1,x_2,...,x_n表示每个样本的n个特征,在每个特征前面加一个参数,就可以估计整体样本特征,下面我们就构造一个线性函数: h(x)=hθ(x)=θ0+θ1x1+θ2x2+...+θnxn=θTXh(x)=h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n=\theta^TX 然后,使用si
2017-04-23 15:26:53
618
SCI-AI.xlsx
2019-11-18
Logistic回归总结
2016-07-01
服务器经常莫名其妙挂
2021-06-29
Mask RCNN训练过程中loss为nan的情况(使用labelme标注的数据)
2019-04-01
烟火检测事件之烟火事件定位,烟火发生的区域
2018-07-26
matlab, CNN,步长不为1的卷积实现
2016-08-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人