自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

KAMITA的博客

Bayesian nonparametrics

  • 博客(31)
  • 收藏
  • 关注

原创 VAE的损失函数的拆分

「Structured Disentangled Representations」这篇文章对VAE的损失函数提出了一个同一化的解释,根据这个解释可以很好的分析近几年来对VAE的各种变形。VAE损失函数的不同形式...

2019-10-14 11:19:53 12976

原创 Variational Autoencoder 变分自动编码器

一步一步实现一个VAE大部分来自Keras VAE的教程,不过没有使用mnist,而是用了cifar10的数据集最简单的两个全链接层的Autoencoder先贴个代码:# this is the size of our encoded representationsencoding_dim = 32 # 32 floats -> compression of factor 24....

2019-07-28 23:36:11 1889

原创 PyTorch训练模型小结

平时用了很多Keras,训练的时候非常方便,直接model.fit就可以了。但是PyTorch的训练得自己写,这里小结下PyTorch怎么训练模型。PyTorch训练的大体步骤一个标准的PyTorch模型必须得有一个固定结构的类,结构如下class TwoLayerNet(torch.nn.Module): def __init__(self, D_in, H, D_out): ...

2019-04-28 11:45:03 10111 6

原创 Keras 使用小结

Keras的两种模型构造方式通用模型(函数式)通用模型可以用来设计非常复杂、任意拓扑结构的神经网络,例如有向无环图网络类似于序列模型,通用模型通过函数化的应用接口来定义模型使用函数化的应用接口有好多好处,比如:决定函数执行结果的唯一要素是其返回值,而决定返回值的唯一要素则是其参数,这大大减轻了代码测试的工作量在通用模型中,定义的时候,从输入的多维矩阵开始,然后定义各层及其要素,最后定义输...

2019-03-31 06:33:36 616

原创 一张基本涵盖了所有神经网络类型的图

2019-01-14 01:03:28 1117

原创 Deep learning下的单类别分类器应用

单类别分类是什么单类别分类(One class classification)要做的就是一个二叉分类器,只不过它分出来的结果只有两类:要么是这个类,要么不是这个类。很简单的分类模型。图片上单类别分类的问题在这里我们单纯讨论图片的分类问题。如果用简单的224*224的图片做输入,需要分类的唯独就太大了,会导致计算资源消耗很大。解决办法使用CNN做特征提取,使用提取出来的特征做用现有的单类别...

2018-11-29 00:18:21 5892 4

原创 CNN各种结构作用简析

CNN 主要干了什么CNN主要实现的就是特征提取,最经典的应用就是从多个图片中提取出有用的信息。这个过程对于人来说是个黑盒的过程,人们并不能很确切的知道里面发生了什么。结果也是非常抽象的,但是却能学习到很好的效果。一个CNN的结构: 输入→卷积→ReLU→卷积→ReLU→池化→ReLU→卷积→ReLU→池化→全连接CNN 的训练就是训练Filter的参数 3x3 5x5 的矩阵每次...

2018-08-28 05:29:51 6352

原创 CV笔记

什么是ResNetResNet解决了什么问题?以前Deep NN的层数不能太高,原因:BP反向传播带来梯度弥散问题。在经过梯度反传后,经过几层后反传的梯度会彻底消失,导致当网络层数增加后,梯度无法传到的层就好比没有经过训练一样。当然由于RELU、中心归一化层的出现使得网络的深度变大,但是也还是没有从根本上解决梯度弥散的问题。单纯的把layer叠起来深层网络的效果反而不如合适层数的较浅的...

2018-08-02 22:55:18 277

转载 Relu的作用

转自一个知乎问答;https://www.zhihu.com/question/290217681.为什么引入非线性激励函数?如果不适用激励函数,那么在这种情况下每一层的输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(perceptron)了正因为上面的原因,我们决定引入非线性函数作为激励函...

2018-07-10 22:55:16 64960 5

原创 Data Mining Machine Learning 基础算法笔记

Data Minig 笔记最近要面试,准备把机器学习的一些基本方法再回顾一下。关联规则Apriori算法名字里面显示它会使用先验知识。 算法步骤如下: 1,先扫描数据库, 统计每个项的出现次数。 2,收集满足最小支持度的项,记为L1L1L_1 3,使用L1L1L_1找出频繁2项集的集合L2L2L_2 4,依次下去,知道不能再找到频繁K项集。分类决策...

2018-04-30 09:25:49 473

转载 [转载] 交叉验证(Cross Validation)简介

一、训练集 vs. 测试集在模式识别(pattern recognition)与机器学习(machine learning)的相关研究中,经常会将数据集(dataset)分为训练集(training set)跟测试集(testing set)这两个子集,前者用以建立模型(model),后者则用来评估该模型对未知样本进行预测时的精确度,正规的说法是泛化能力(generalization

2017-07-01 04:38:54 472

转载 混合模型采样的编程问题

我们经常遇到一些混合模型,该如何从这个混合模型中进行采样呢?现有如下例子需要采样: 0.3×(0,1)+0.5×(10,1)+0.2×(3,1)0.3 \times \mathcal{N}(0,1) + 0.5 \times \math#The number of samples from the mixture distributionN = 100000 #Sampl

2017-05-26 22:51:50 1688

原创 DPMM(狄利克雷过程混合模型)浅解和添加似然函数的问题

Dirichlet Process 狄利克雷混合模型

2017-04-28 22:54:36 3978 2

翻译 非参数贝叶斯隐式半马尔可夫模型

试着翻译 Matthew J.Johnson 的这篇文章Abstract将无处不在的对时间序列处理的马尔可夫模型加入层次性狄利克雷过程隐式马尔可夫链(HDP-HMM)作为一个自然的非参数贝叶斯的扩展是很重要的。但是,很多时候,HMM的马尔可夫性的约束是很不必要的,尤其是当我们想要学习或者编码非几何分布的状态时间的时候。

2017-04-10 04:54:36 3546 2

转载 转载 Recall(召回率);Precision(准确率);F1-Meature(综合评价指标)

原文:http://blog.youkuaiyun.com/t710smgtwoshima/article/details/8215037Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);     在信息检索(如搜索引擎)、自然语言处理和检测分类中经常会使用这些参数,介于语言翻译上的原因理解难免出现误差,下面介绍下自己对他们的理解。 

2017-03-15 04:23:21 493

原创 Forward-Backward算法做HMM的Inference

F/B算法是一个求解HMM的重要算法,它是动态规划(Dynamic programming, 这个名字的翻译有点意思)的重要一种。F/B前提:假设发散概率矩阵(Emission Probablity Matrix), 转换矩阵(Transition Probabilty Matrix) , 和初始概率(Initial probability)已知。F/B目的:求在已知的观测数据X下的某个状态Z的概率

2017-02-20 11:00:23 4662

原创 贝叶斯层次型模型参数估计 Bayesian hierarchical model parameter estimation with Stan

再来总结下贝叶斯参数估计,分为以下几部分: 1. 先说说贝叶斯参数估计 2. 再说说层次型模型,指的就是超参数(Hyper parameter)的选择 3. 用吉布斯采样把这些参数(数据分布的参数和超参数)都采出来先说说贝叶斯参数估计的时候用的贝叶斯定理: p(Θ|y)=p(y|Θ)p(Θ)/p(y)∝p(y|Θ)p(Θ)p(\Theta|y) = p(y|\Theta)p(\Theta)/

2016-12-03 18:10:31 26592 3

原创 Metropolis-Hastings算法理解

搞了好长时间的BNP,但是翻来覆去这个MH算法还是不太明白,在这里记几个点来帮助理解。教材还是主要看的LDA数学八卦,写的不错,不过我理解的比较慢,感觉有些地方讲得有点太粗了,油管上有不少视频讲的很好(Daphne Koller的),可以看看。说MH之前得先说MCMC。1.接受率的意义这个东西不太好理解,因为其他机器学习的地方根本就没有,太抽象。下面要开始理解了。重点1,平

2016-11-20 16:09:09 15002

原创 概率矩阵分解和泊松矩阵分解的区别

概率矩阵分解是SVD的概率版本,它假设用户和物品的隐式特征向量服从高斯先验分布。还加设一观测到的评分数据条件概率也服从高斯先验分布。

2016-10-31 11:04:26 2585

转载 卡尔曼滤波-转自知乎

假设你有两个传感器,测的是同一个信号。可是它们每次的读数都不太一样,怎么办?取平均。再假设你知道其中贵的那个传感器应该准一些,便宜的那个应该差一些。那有比取平均更好的办法吗?加权平均。怎么加权?假设两个传感器的误差都符合正态分布,假设你知道这两个正态分布的方差,用这两个方差值,(此处省略若干数学公式),你可以得到一个“最优”的权重。接下来,重点来了:假设你只

2016-10-24 14:58:53 2458

原创 Structured data 和 Unstructured data

Structured data refers to any data that resides in a fixed field within a record or file. This includes data contained in relational databases and spreadsheets.Structured data first depends on creat

2016-09-20 16:36:49 8380

原创 凹函数和凸函数

函数上任意取两点连线大于其函数值为 convex 凹函数。相反为凸函数。convex函数好优化。例子:convex:exponentialpowersnegative entropynorms(所有的范数)concave:powers 0logarithm.

2016-08-25 16:22:55 2103

原创 非参数贝叶斯泊松矩阵分解

非参数贝叶斯泊松矩阵分解

2016-08-23 11:42:53 2519

转载 Matlab quadprog

Matlab 中求解二次规划的函数为quadprog,他的用法如下:x = quadprog(H,f)x = quadprog(H,f,A,b)x = quadprog(H,f,A,b,Aeq,beq)x = quadprog(H,f,A,b,Aeq,beq,lb,ub)x = quadprog(H,f,A,b,Aeq,beq,lb,ub,x0)x = quadprog

2016-07-30 18:03:46 3792

转载 从线行回归到高斯过程分类

转自Zoubin的Tutorial

2016-06-13 11:01:15 1333

转载 充分统计(sufficient statistic) 理解

统计量是数据的函数。函数就是一种「浓缩」讯息的动作。因此, 统计量中所包含的讯息, 通常比整个样本数据所包含的来得少.例如样本的顺序统计量只包含了有哪些值出现, 而不同值出现的顺序这样的讯息不见了。但统计量比样本原数据少掉的讯息可能是无关紧要的 --- 和我们要了解的群体特性不相干, 如上述数据出现顺序在很多时候和我们关心的群体特性无关。统计量所包含关于群体特性的讯息不比原样本数据少, 就

2016-06-08 16:09:49 7937

转载 似然函数的理解

摘自Wikipedia,估计一个theta 让似然函数最大

2016-06-03 17:02:25 1078

转载 Bootstrap sampling

bootstrap可以看作非参Monte Carlo再次重申非参不是没有参数,非参是无穷维参数空间,是无法想到合适参数模型时的默认模式。bootstrap看作对样本经验分布作随机数生成,产生模拟样本。Monte carlo的解释是依赖随机数生成而产生新样本对其进行模拟。bootstrap完全符合这个定义。作者:陈无左链接:https://www.zhihu.com/qu

2016-05-27 14:56:31 3772 1

原创 Rejection sampling 笔记

拒绝抽样,直观地理解,为了得到一个分布的样本,我们通过某种机制得到了很多的初步样本,然后其中一部分初步样本会被作为有效的样本(即要抽取的分布的样本),一部分初步样本会被认为是无效样本舍弃掉。这个算法的基本思想是:我们需要对一个分布f(x)进行采样,但是却很难直接进行采样,所以我们想通过另外一个容易采样的分布g(x)的样本,用某种机制去除掉一些样本,从而使得剩下的样本就是来自与所求分布f(x)的样本

2016-05-26 15:53:52 2821

转载 Dirichlet 理解

一直在用LDA,但是一直不太理解其中Dirichlet抽样是个什么样的东西,于是画了一些时间好好好看了看关于dirichlet的理解。感觉还挺有收货,这里先总结一些资料的出处,希望对大家有帮助:http://cos.name/2013/01/lda-math-gamma-function/这个讲解讲的比较详细,从最基础的gamma函数开始,然后从Beta分布扩展到了Dirichle

2016-05-25 11:43:48 4642 3

转载 Alias Method解决随机类型概率问题

举个例子,游戏中玩家推倒了一个boss,会按如下概率掉落物品:10%掉武器 20%掉饰品 30%掉戒指 40%掉披风。现在要给出下一个掉落的物品类型,或者说一个掉落的随机序列,要求符合上述概率。一般人会想到的两种解法第一种算法,构造一个容量为100(或其他)的数组,将其中10个元素填充为类型1(武器),20个元素填充为类型2(饰品)...构造完毕之后,在1到100之间取随机数ran

2016-05-25 11:23:35 1327

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除