- 博客(14)
- 资源 (4)
- 收藏
- 关注
原创 StyleGan2-ADA: Training Generative Adversarial Networks with Limited Data
训练一个GAN模型,通常需要比较多的数据(ffhq是7万),数据量少的话会导致判别器过拟合,回传的梯度无意义,从而导致生成器停止学习或崩掉。GAN本质上就是通过判别器找到生成图与真实图差异的部分,通过赋予相应位置权重(梯度)来提升生成效果。训练初期判别器关注整体形状,后期更关注细节。本文讨论如何使用较少的数据(几千张),通过数据增益方法,避免判别器过拟合,训练出好的生成器。一般的监督学习训练任务都会使用数据增益(旋转,颜色变换、加噪声等),但如果直接用到GAN的训练任务中,可能会导致增益泄露到生成器。比
2021-05-28 15:42:56
3933
原创 Soft Actor-Critic(论文笔记)
SoftActor-CriticSAC跟softQLearning一样在目标函数中引入熵,其目的是希望actor估计得动作在能够完成任务的基础上尽可能随机化。使得actor可以探索更多可能性,以达到近似最优(原文是near-optimal)的多种选择。假设有多个动作差不多一样好,policy应该设置每个动作有差不多一样的概率来选择他们。本文的关键点: Off-policy方式更...
2019-12-27 18:32:01
2618
1
原创 Mastering Complex Control in MOBA Games with Deep Reinforcement Learning(论文笔记)
本文由腾讯AI Lab跟天美发表,用于王者荣耀1v1的AI训练,达成99.81%的胜率。文章分了几个部分进行讲解。大系统整个框架分为四个模块:RLLearner,AIServer,Dispatch module与MemoryPool,如下图:AIServer:此模块用当前的agent与游戏环境进行交互来收集数据,一个AIServer绑定一个cpu,agent会copy到c...
2019-12-25 19:23:29
2339
1
原创 DDPG,CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文阅读
DDPG算法是训练一个deterministic policy来处理动作连续的问题,主要是基于DQN的思想,训练一个Q-functon来衡量动作的Q值。一般的DQN方法得到下面这个Q的最优值是很容易的,因为动作是离散的,取对应Q值最大的动作即可。但是在连续动作上就不太好处理了。原始的Q-Learning的贝尔曼方程是:贝尔曼方程可以用来学习最优的Q函数,目标函数为:因为...
2019-10-11 20:26:05
656
原创 PPO,Proximal Policy Optimization Algorithms 论文阅读
TRPO的优化方式比较复杂,对于某些模型结构无法使用,例如模型使用了dropout或policy跟value function模型参数进行了共享。PPO算法基于TRPO的目标函数进行了简化,使用目标函数的一阶导数进行policy的更新,并且更新时可以进行多次迭代,重复使用现有的数据更新policy。先看TRPO的目标函数(是surrogate的)其复杂的优化方式主要来源于那个hard的...
2019-10-10 20:20:58
1743
原创 Trust Region Policy Optimization 论文阅读与理解
本文主要讨论两个目标:1. 如何让目标函数(total reward)在policy更新时是持续递增的。2. 如何让policy在更新后的“行为”与更新前相似,而不是“参数”相近,因为参数相近的两个模型行为上可能有很大差别。第二个目标也是为了保证更新时的稳定性,因为参数上的“一小步”走错了可能导致整个模型崩溃。为此需要在行为上在与旧的policy行为有一定相似程度的情况下进行更新。这个一定的相似程...
2019-10-09 18:46:33
1580
原创 强化学习介绍,Policy-Gradient(包含PPO中的部分),李宏毅课程笔记(整合了Lec4的Q-Learning及Imitation Learning)
老师的PPT下载。RL与一般机器学习不同的地方:当前的动作会影响到未来。影响环境、影响接下来看到的东西。observation与State:observation是更raw的场景或图像,更原始。State是经过处理、去掉冗余后的observation。当模型能力很强的时候,例如一些游戏直接输入画面,那么observation与State就一样了。仅仅只将与环境的互动问题当...
2019-09-06 18:30:32
943
原创 (CVPR 2018)Large Scale Fine-Grained Categorization and Domain-Specific Transfer Learning,细粒度图像识别
简介本文主要讨论了几个点:图像分辨率对识别的影响 长尾数据应对方法,主要针对iNaturalist数据。所谓长尾数据是指类别数据量不平衡,有些类别数据量很大,很多类别数据量很少,呈长尾状。细粒度图像识别,例如鸟类、车类的子类别。本文并没有提出新的网络结构,主要是通过迁移学习达到此目的。针对source数据的选取、预训练及fine-tune。图像分辨率讨论分辨率越高包含的信息量...
2019-09-02 20:35:14
920
1
原创 GauGAN,Semantic Image Synthesis with Spatially-Adaptive Normalization 论文阅读
简介本文做的模型是从一张语义图(分割里的semanticmask)生成相应的一张真实图,下图的第一行是输入,不同的颜色代表不同的语义类别,第二行到第三行是生成的真实图像,其中每一行对应一种风格,每行最左边的图例为风格样式。这篇文章最主要的地方就是讨论了normalization层在语义信息里的作用。之前的方法,normalization层会过滤掉语义图的语义信息。为什么呢,可以看下图...
2019-08-29 20:16:41
1801
3
原创 TensorRT的安装以及可能遇到的问题
安装流程及问题参考官网链接:https://docs.nvidia.com/deeplearning/sdk/tensorrt-install-guide/index.html这里以ubuntu系统为例,首先上TensorRT官网把对应版本的安装包下载下来,可能需要登录,版本选择DEB,找到自己对应的Ubuntu版本跟cuda版本。ubuntu版本查看:cat /etc/issu...
2019-08-26 18:59:02
11713
2
原创 Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition,细粒度图像识别
论文:Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition简介与方法本文方法看完有那么一点SSD的既视感,作者在论文中也提到灵感来源于SSD。总体上来看就像是一个单anchor单尺度(当然可以多尺度)的SSD来检测kM个目标,M是类别数,k是每个类别要检测的part数,最后再结合这些p...
2019-08-22 10:33:33
2217
4
原创 Learning to Navigate for Fine-grained Classification,细粒度图像识别
简介细粒度图像识别主要是对某个类别的子类进行细分类,例如狗的品种、不同品牌不同型号的车。往往大类总体外观差不多,需要通过一些局部的细节来进行区分,而局部的细节又随着当前目标的姿态不同在图像中的位置也不同,因此一般用于ImageNet的分类网络进行这种细类分类就会比较难。因此假设:有意义的局部信息可以辅助分类,局部信息加全局信息可以进一步提高分类效果。因此目标是找到更有意义的局部位置。按照上...
2019-08-20 19:41:35
2279
4
原创 论文阅读:Look Closer to See Better 细粒度图像分类
Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition简介本文介绍了一种recurrent attention convolutional neural network (RA-CNN),用于细粒度图像分类。本文总体的思想并不...
2019-08-19 17:03:52
749
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人