- 博客(31)
- 收藏
- 关注
原创 VAE的损失函数的拆分
「Structured Disentangled Representations」这篇文章对VAE的损失函数提出了一个同一化的解释,根据这个解释可以很好的分析近几年来对VAE的各种变形。VAE损失函数的不同形式...
2019-10-14 11:19:53
12976
原创 Variational Autoencoder 变分自动编码器
一步一步实现一个VAE大部分来自Keras VAE的教程,不过没有使用mnist,而是用了cifar10的数据集最简单的两个全链接层的Autoencoder先贴个代码:# this is the size of our encoded representationsencoding_dim = 32 # 32 floats -> compression of factor 24....
2019-07-28 23:36:11
1889
原创 PyTorch训练模型小结
平时用了很多Keras,训练的时候非常方便,直接model.fit就可以了。但是PyTorch的训练得自己写,这里小结下PyTorch怎么训练模型。PyTorch训练的大体步骤一个标准的PyTorch模型必须得有一个固定结构的类,结构如下class TwoLayerNet(torch.nn.Module): def __init__(self, D_in, H, D_out): ...
2019-04-28 11:45:03
10111
6
原创 Keras 使用小结
Keras的两种模型构造方式通用模型(函数式)通用模型可以用来设计非常复杂、任意拓扑结构的神经网络,例如有向无环图网络类似于序列模型,通用模型通过函数化的应用接口来定义模型使用函数化的应用接口有好多好处,比如:决定函数执行结果的唯一要素是其返回值,而决定返回值的唯一要素则是其参数,这大大减轻了代码测试的工作量在通用模型中,定义的时候,从输入的多维矩阵开始,然后定义各层及其要素,最后定义输...
2019-03-31 06:33:36
616
原创 Deep learning下的单类别分类器应用
单类别分类是什么单类别分类(One class classification)要做的就是一个二叉分类器,只不过它分出来的结果只有两类:要么是这个类,要么不是这个类。很简单的分类模型。图片上单类别分类的问题在这里我们单纯讨论图片的分类问题。如果用简单的224*224的图片做输入,需要分类的唯独就太大了,会导致计算资源消耗很大。解决办法使用CNN做特征提取,使用提取出来的特征做用现有的单类别...
2018-11-29 00:18:21
5892
4
原创 CNN各种结构作用简析
CNN 主要干了什么CNN主要实现的就是特征提取,最经典的应用就是从多个图片中提取出有用的信息。这个过程对于人来说是个黑盒的过程,人们并不能很确切的知道里面发生了什么。结果也是非常抽象的,但是却能学习到很好的效果。一个CNN的结构: 输入→卷积→ReLU→卷积→ReLU→池化→ReLU→卷积→ReLU→池化→全连接CNN 的训练就是训练Filter的参数 3x3 5x5 的矩阵每次...
2018-08-28 05:29:51
6352
原创 CV笔记
什么是ResNetResNet解决了什么问题?以前Deep NN的层数不能太高,原因:BP反向传播带来梯度弥散问题。在经过梯度反传后,经过几层后反传的梯度会彻底消失,导致当网络层数增加后,梯度无法传到的层就好比没有经过训练一样。当然由于RELU、中心归一化层的出现使得网络的深度变大,但是也还是没有从根本上解决梯度弥散的问题。单纯的把layer叠起来深层网络的效果反而不如合适层数的较浅的...
2018-08-02 22:55:18
277
转载 Relu的作用
转自一个知乎问答;https://www.zhihu.com/question/290217681.为什么引入非线性激励函数?如果不适用激励函数,那么在这种情况下每一层的输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(perceptron)了正因为上面的原因,我们决定引入非线性函数作为激励函...
2018-07-10 22:55:16
64960
5
原创 Data Mining Machine Learning 基础算法笔记
Data Minig 笔记最近要面试,准备把机器学习的一些基本方法再回顾一下。关联规则Apriori算法名字里面显示它会使用先验知识。 算法步骤如下: 1,先扫描数据库, 统计每个项的出现次数。 2,收集满足最小支持度的项,记为L1L1L_1 3,使用L1L1L_1找出频繁2项集的集合L2L2L_2 4,依次下去,知道不能再找到频繁K项集。分类决策...
2018-04-30 09:25:49
473
转载 [转载] 交叉验证(Cross Validation)简介
一、训练集 vs. 测试集在模式识别(pattern recognition)与机器学习(machine learning)的相关研究中,经常会将数据集(dataset)分为训练集(training set)跟测试集(testing set)这两个子集,前者用以建立模型(model),后者则用来评估该模型对未知样本进行预测时的精确度,正规的说法是泛化能力(generalization
2017-07-01 04:38:54
472
转载 混合模型采样的编程问题
我们经常遇到一些混合模型,该如何从这个混合模型中进行采样呢?现有如下例子需要采样: 0.3×(0,1)+0.5×(10,1)+0.2×(3,1)0.3 \times \mathcal{N}(0,1) + 0.5 \times \math#The number of samples from the mixture distributionN = 100000 #Sampl
2017-05-26 22:51:50
1688
翻译 非参数贝叶斯隐式半马尔可夫模型
试着翻译 Matthew J.Johnson 的这篇文章Abstract将无处不在的对时间序列处理的马尔可夫模型加入层次性狄利克雷过程隐式马尔可夫链(HDP-HMM)作为一个自然的非参数贝叶斯的扩展是很重要的。但是,很多时候,HMM的马尔可夫性的约束是很不必要的,尤其是当我们想要学习或者编码非几何分布的状态时间的时候。
2017-04-10 04:54:36
3546
2
转载 转载 Recall(召回率);Precision(准确率);F1-Meature(综合评价指标)
原文:http://blog.youkuaiyun.com/t710smgtwoshima/article/details/8215037Recall(召回率);Precision(准确率);F1-Meature(综合评价指标); 在信息检索(如搜索引擎)、自然语言处理和检测分类中经常会使用这些参数,介于语言翻译上的原因理解难免出现误差,下面介绍下自己对他们的理解。
2017-03-15 04:23:21
493
原创 Forward-Backward算法做HMM的Inference
F/B算法是一个求解HMM的重要算法,它是动态规划(Dynamic programming, 这个名字的翻译有点意思)的重要一种。F/B前提:假设发散概率矩阵(Emission Probablity Matrix), 转换矩阵(Transition Probabilty Matrix) , 和初始概率(Initial probability)已知。F/B目的:求在已知的观测数据X下的某个状态Z的概率
2017-02-20 11:00:23
4662
原创 贝叶斯层次型模型参数估计 Bayesian hierarchical model parameter estimation with Stan
再来总结下贝叶斯参数估计,分为以下几部分: 1. 先说说贝叶斯参数估计 2. 再说说层次型模型,指的就是超参数(Hyper parameter)的选择 3. 用吉布斯采样把这些参数(数据分布的参数和超参数)都采出来先说说贝叶斯参数估计的时候用的贝叶斯定理: p(Θ|y)=p(y|Θ)p(Θ)/p(y)∝p(y|Θ)p(Θ)p(\Theta|y) = p(y|\Theta)p(\Theta)/
2016-12-03 18:10:31
26592
3
原创 Metropolis-Hastings算法理解
搞了好长时间的BNP,但是翻来覆去这个MH算法还是不太明白,在这里记几个点来帮助理解。教材还是主要看的LDA数学八卦,写的不错,不过我理解的比较慢,感觉有些地方讲得有点太粗了,油管上有不少视频讲的很好(Daphne Koller的),可以看看。说MH之前得先说MCMC。1.接受率的意义这个东西不太好理解,因为其他机器学习的地方根本就没有,太抽象。下面要开始理解了。重点1,平
2016-11-20 16:09:09
15002
原创 概率矩阵分解和泊松矩阵分解的区别
概率矩阵分解是SVD的概率版本,它假设用户和物品的隐式特征向量服从高斯先验分布。还加设一观测到的评分数据条件概率也服从高斯先验分布。
2016-10-31 11:04:26
2585
转载 卡尔曼滤波-转自知乎
假设你有两个传感器,测的是同一个信号。可是它们每次的读数都不太一样,怎么办?取平均。再假设你知道其中贵的那个传感器应该准一些,便宜的那个应该差一些。那有比取平均更好的办法吗?加权平均。怎么加权?假设两个传感器的误差都符合正态分布,假设你知道这两个正态分布的方差,用这两个方差值,(此处省略若干数学公式),你可以得到一个“最优”的权重。接下来,重点来了:假设你只
2016-10-24 14:58:53
2458
原创 Structured data 和 Unstructured data
Structured data refers to any data that resides in a fixed field within a record or file. This includes data contained in relational databases and spreadsheets.Structured data first depends on creat
2016-09-20 16:36:49
8380
原创 凹函数和凸函数
函数上任意取两点连线大于其函数值为 convex 凹函数。相反为凸函数。convex函数好优化。例子:convex:exponentialpowersnegative entropynorms(所有的范数)concave:powers 0logarithm.
2016-08-25 16:22:55
2103
转载 Matlab quadprog
Matlab 中求解二次规划的函数为quadprog,他的用法如下:x = quadprog(H,f)x = quadprog(H,f,A,b)x = quadprog(H,f,A,b,Aeq,beq)x = quadprog(H,f,A,b,Aeq,beq,lb,ub)x = quadprog(H,f,A,b,Aeq,beq,lb,ub,x0)x = quadprog
2016-07-30 18:03:46
3792
转载 充分统计(sufficient statistic) 理解
统计量是数据的函数。函数就是一种「浓缩」讯息的动作。因此, 统计量中所包含的讯息, 通常比整个样本数据所包含的来得少.例如样本的顺序统计量只包含了有哪些值出现, 而不同值出现的顺序这样的讯息不见了。但统计量比样本原数据少掉的讯息可能是无关紧要的 --- 和我们要了解的群体特性不相干, 如上述数据出现顺序在很多时候和我们关心的群体特性无关。统计量所包含关于群体特性的讯息不比原样本数据少, 就
2016-06-08 16:09:49
7937
转载 Bootstrap sampling
bootstrap可以看作非参Monte Carlo再次重申非参不是没有参数,非参是无穷维参数空间,是无法想到合适参数模型时的默认模式。bootstrap看作对样本经验分布作随机数生成,产生模拟样本。Monte carlo的解释是依赖随机数生成而产生新样本对其进行模拟。bootstrap完全符合这个定义。作者:陈无左链接:https://www.zhihu.com/qu
2016-05-27 14:56:31
3772
1
原创 Rejection sampling 笔记
拒绝抽样,直观地理解,为了得到一个分布的样本,我们通过某种机制得到了很多的初步样本,然后其中一部分初步样本会被作为有效的样本(即要抽取的分布的样本),一部分初步样本会被认为是无效样本舍弃掉。这个算法的基本思想是:我们需要对一个分布f(x)进行采样,但是却很难直接进行采样,所以我们想通过另外一个容易采样的分布g(x)的样本,用某种机制去除掉一些样本,从而使得剩下的样本就是来自与所求分布f(x)的样本
2016-05-26 15:53:52
2821
转载 Dirichlet 理解
一直在用LDA,但是一直不太理解其中Dirichlet抽样是个什么样的东西,于是画了一些时间好好好看了看关于dirichlet的理解。感觉还挺有收货,这里先总结一些资料的出处,希望对大家有帮助:http://cos.name/2013/01/lda-math-gamma-function/这个讲解讲的比较详细,从最基础的gamma函数开始,然后从Beta分布扩展到了Dirichle
2016-05-25 11:43:48
4642
3
转载 Alias Method解决随机类型概率问题
举个例子,游戏中玩家推倒了一个boss,会按如下概率掉落物品:10%掉武器 20%掉饰品 30%掉戒指 40%掉披风。现在要给出下一个掉落的物品类型,或者说一个掉落的随机序列,要求符合上述概率。一般人会想到的两种解法第一种算法,构造一个容量为100(或其他)的数组,将其中10个元素填充为类型1(武器),20个元素填充为类型2(饰品)...构造完毕之后,在1到100之间取随机数ran
2016-05-25 11:23:35
1327
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人