
论文笔记
Bonennult
这个作者很懒,什么都没留下…
展开
-
《Stochastic Long-term Video Interpolation》& 《Structure Preserving Video Prediction》论文笔记
Stochastic Long-term Video Interpolation背景长期视频插值,也即视频帧率比较低的情况下,在较长的区间内进行视频插值。主要工作在视频预测中引入随机性预测试不仅使用两端的视频帧,同时引入更远的视频帧(创新点)为保证从两端开始预测时视频内容的一致性,结合前人提出的ConvLSTM和bi-direction RNN,提出网络RBConvLSTM(创新点)...原创 2018-10-05 10:49:54 · 928 阅读 · 1 评论 -
《FutureGAN: Anticipating the Future Frames of Video Sequences using ……》论文笔记
FutureGAN: Anticipating the Future Frames of Video Sequences using Spatio-Temporal 3d Convolutions in Progressively Growing Autoencoder GANs摘要本文使用Autoencoder GAN模型,特点是网络结构简单,生成图片比较真实,但是最终的预测结果惨不忍睹。...原创 2018-10-15 09:09:14 · 1044 阅读 · 0 评论 -
《Progressive Growing of GANs for Improved Quality, Stability, and Variation》论文笔记
PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND VARIATION简介论文主要针对GAN训练不稳定以及训练速度慢提出一种训练方法:训练过程中图像分辨率逐渐升高,同时网络层逐渐增加。对于高分辨率图像,可能生成器所生成的图片与原始图片差距很大,很容易区分,那么在优化时,梯度很可能指向一个随机的方向,就会带来麻烦。...原创 2018-10-17 20:05:56 · 723 阅读 · 0 评论 -
《SDC-Net: Video prediction using spatially-displaced convolution》论文笔记
简介论文针对视频预测中的图像模糊问题,提出一种预测网络:将kernal-based与vector-based的预测方式相结合,既可以预测较大范围的运动(large motion),又可以避免斑点噪声(speckled noise)的影响,从而生成较为逼真的图像。kernal-based:如图(a),优点是可以预测较大范围的运动,缺点是容易受到噪声斑点的影响;vector-based:如图(...原创 2018-10-24 21:21:48 · 1586 阅读 · 0 评论 -
《Unsupervised Learning of Depth and Ego-Motion from Video》论文笔记
Unsupervised Learning of Depth and Ego-Motion from Video作者:Tinghui Zhou,项目主页摘要作者针对于无结构化的单目视频序列的图像深度获取提出了一种无监督网络架构,与之前方法不同在于作者的方法是完全无监督的,而之前的网络或者需要像素深度的标记,或者需要相机姿势的标记等。网络中使用了单目视的深度预测网络与双目视的姿势预测网络...原创 2019-02-27 23:19:49 · 2940 阅读 · 0 评论 -
《Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion ...》论文笔记
论文题目:Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and Motion Segmentation论文地址:https://arxiv.org/abs/1805.09806项目地址:https://research.nvidia.com/public...原创 2019-04-12 16:02:10 · 1328 阅读 · 0 评论 -
《E2E-MLT - an Unconstrained End-to-End Method for Multi-Language Scene Text》论文笔记
题目:E2E-MLT - an Unconstrained End-to-End method for Multi-Language Scene Textarxiv:https://arxiv.org/abs/1801.09919GitHub:https://github.com/MichalBusta/E2E-MLT摘要作者首次提出了针对多种语言的检测和识别的端到端OCR网络。1....原创 2019-05-08 19:51:19 · 629 阅读 · 0 评论 -
基于深度学习的视频预测文献综述
A Survey on Deep Video Prediction1. 简介视频预测是一种无监督学习,因为要从图像序列中学习到未标注的视频数据结构信息。他需要对每个像素都进行预测。为了实现好的效果,需要使用一些复杂的损失函数。同时视频预测还是一种多模式的问题,因为正确的预测还需要很多视频中未给出的潜在的信息。传统方法基本对于高分辨率无能为力,因为他们不能处理真实世界的复杂性。DNN在物体识别...翻译 2019-03-09 15:43:44 · 4271 阅读 · 2 评论