自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

KongCDY的专栏

原创 StyleGan2-ADA: Training Generative Adversarial Networks with Limited Data

训练一个GAN模型，通常需要比较多的数据（ffhq是7万），数据量少的话会导致判别器过拟合，回传的梯度无意义，从而导致生成器停止学习或崩掉。GAN本质上就是通过判别器找到生成图与真实图差异的部分，通过赋予相应位置权重（梯度）来提升生成效果。训练初期判别器关注整体形状，后期更关注细节。本文讨论如何使用较少的数据（几千张），通过数据增益方法，避免判别器过拟合，训练出好的生成器。一般的监督学习训练任务都会使用数据增益（旋转，颜色变换、加噪声等），但如果直接用到GAN的训练任务中，可能会导致增益泄露到生成器。比

2021-05-28 15:42:56 3933

原创 Soft Actor-Critic（论文笔记）

SoftActor-CriticSAC跟softQLearning一样在目标函数中引入熵，其目的是希望actor估计得动作在能够完成任务的基础上尽可能随机化。使得actor可以探索更多可能性，以达到近似最优（原文是near-optimal）的多种选择。假设有多个动作差不多一样好，policy应该设置每个动作有差不多一样的概率来选择他们。本文的关键点： Off-policy方式更...

2019-12-27 18:32:01 2618 1

原创 Mastering Complex Control in MOBA Games with Deep Reinforcement Learning（论文笔记）

本文由腾讯AI Lab跟天美发表，用于王者荣耀1v1的AI训练，达成99.81%的胜率。文章分了几个部分进行讲解。大系统整个框架分为四个模块：RLLearner，AIServer，Dispatch module与MemoryPool，如下图：AIServer：此模块用当前的agent与游戏环境进行交互来收集数据，一个AIServer绑定一个cpu，agent会copy到c...

2019-12-25 19:23:29 2339 1

原创 DDPG，CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文阅读

DDPG算法是训练一个deterministic policy来处理动作连续的问题，主要是基于DQN的思想，训练一个Q-functon来衡量动作的Q值。一般的DQN方法得到下面这个Q的最优值是很容易的，因为动作是离散的，取对应Q值最大的动作即可。但是在连续动作上就不太好处理了。原始的Q-Learning的贝尔曼方程是：贝尔曼方程可以用来学习最优的Q函数，目标函数为：因为...

2019-10-11 20:26:05 656

原创 PPO，Proximal Policy Optimization Algorithms 论文阅读

TRPO的优化方式比较复杂，对于某些模型结构无法使用，例如模型使用了dropout或policy跟value function模型参数进行了共享。PPO算法基于TRPO的目标函数进行了简化，使用目标函数的一阶导数进行policy的更新，并且更新时可以进行多次迭代，重复使用现有的数据更新policy。先看TRPO的目标函数（是surrogate的）其复杂的优化方式主要来源于那个hard的...

2019-10-10 20:20:58 1743

原创 Trust Region Policy Optimization 论文阅读与理解

本文主要讨论两个目标：1. 如何让目标函数（total reward）在policy更新时是持续递增的。2. 如何让policy在更新后的“行为”与更新前相似，而不是“参数”相近，因为参数相近的两个模型行为上可能有很大差别。第二个目标也是为了保证更新时的稳定性，因为参数上的“一小步”走错了可能导致整个模型崩溃。为此需要在行为上在与旧的policy行为有一定相似程度的情况下进行更新。这个一定的相似程...

2019-10-09 18:46:33 1580

原创强化学习介绍，Policy-Gradient（包含PPO中的部分），李宏毅课程笔记（整合了Lec4的Q-Learning及Imitation Learning）

老师的PPT下载。RL与一般机器学习不同的地方：当前的动作会影响到未来。影响环境、影响接下来看到的东西。observation与State：observation是更raw的场景或图像，更原始。State是经过处理、去掉冗余后的observation。当模型能力很强的时候，例如一些游戏直接输入画面，那么observation与State就一样了。仅仅只将与环境的互动问题当...

2019-09-06 18:30:32 943

原创（CVPR 2018）Large Scale Fine-Grained Categorization and Domain-Specific Transfer Learning，细粒度图像识别

简介本文主要讨论了几个点：图像分辨率对识别的影响长尾数据应对方法，主要针对iNaturalist数据。所谓长尾数据是指类别数据量不平衡，有些类别数据量很大，很多类别数据量很少，呈长尾状。细粒度图像识别，例如鸟类、车类的子类别。本文并没有提出新的网络结构，主要是通过迁移学习达到此目的。针对source数据的选取、预训练及fine-tune。图像分辨率讨论分辨率越高包含的信息量...

2019-09-02 20:35:14 920 1

原创 GauGAN，Semantic Image Synthesis with Spatially-Adaptive Normalization 论文阅读

简介本文做的模型是从一张语义图（分割里的semanticmask）生成相应的一张真实图，下图的第一行是输入，不同的颜色代表不同的语义类别，第二行到第三行是生成的真实图像，其中每一行对应一种风格，每行最左边的图例为风格样式。这篇文章最主要的地方就是讨论了normalization层在语义信息里的作用。之前的方法，normalization层会过滤掉语义图的语义信息。为什么呢，可以看下图...

2019-08-29 20:16:41 1801 3

原创视频内容理解相关方法

不负责任且随意的总结……

2019-08-28 19:57:30 5763 1

原创 TensorRT的安装以及可能遇到的问题

安装流程及问题参考官网链接：https://docs.nvidia.com/deeplearning/sdk/tensorrt-install-guide/index.html这里以ubuntu系统为例，首先上TensorRT官网把对应版本的安装包下载下来，可能需要登录，版本选择DEB，找到自己对应的Ubuntu版本跟cuda版本。ubuntu版本查看：cat /etc/issu...

2019-08-26 18:59:02 11713 2

原创 Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition，细粒度图像识别

论文：Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition简介与方法本文方法看完有那么一点SSD的既视感，作者在论文中也提到灵感来源于SSD。总体上来看就像是一个单anchor单尺度（当然可以多尺度）的SSD来检测kM个目标，M是类别数，k是每个类别要检测的part数，最后再结合这些p...

2019-08-22 10:33:33 2217 4

原创 Learning to Navigate for Fine-grained Classification，细粒度图像识别

简介细粒度图像识别主要是对某个类别的子类进行细分类，例如狗的品种、不同品牌不同型号的车。往往大类总体外观差不多，需要通过一些局部的细节来进行区分，而局部的细节又随着当前目标的姿态不同在图像中的位置也不同，因此一般用于ImageNet的分类网络进行这种细类分类就会比较难。因此假设：有意义的局部信息可以辅助分类，局部信息加全局信息可以进一步提高分类效果。因此目标是找到更有意义的局部位置。按照上...

2019-08-20 19:41:35 2279 4

原创论文阅读：Look Closer to See Better 细粒度图像分类

Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition简介本文介绍了一种recurrent attention convolutional neural network (RA-CNN)，用于细粒度图像分类。本文总体的思想并不...

2019-08-19 17:03:52 749

OpenSceneGraph3.0Release版本及Example Data

OSG3.0已编译好的release版本，可直接用~附带里面例程的模型数据等~

2013-05-10

OpenCV 2.4.4 使用手册

OpenCV 2.4.4 官方文档，函数API

2013-03-18

计算机视觉中的数学方法

有些双目视觉的东西，其他都是数学方面.跟多视图几何有点像，更突出数学方法。

2012-08-20

BumpMapping的原理及编程

GLSL bump mapping 讲解及编程

2012-03-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除