机器学习
文章平均质量分 60
chemical_romance
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LDA原论文的部分解读
本文主要是针对“Latent Dirichlet Allocation”部分的解读。该paper除了提出LDA,还将其与LSI,pLSI以及其他生成模型做了对比。另外它提到了LDA的一个简化版本,其实这个简化版本就足够用来做tweet的情感分析了。I Latent Dirichlet Allocation文本处理中,最传统的做法是将文档用tf-idf向量表示。这里,tf-idf原创 2014-01-12 15:46:45 · 2028 阅读 · 0 评论 -
使用吉布斯采样求解LDA模型
LDA原论文用Variational Inference方法求解参数,但那个方法深究比较复杂。后来发现,统计之都中有个LDA的系列文章讲解十分清晰、到位。这里用我自己理解的思路组织了这篇文章。用latex生成,可以到这里下载LDA模型求解.pdf原创 2014-02-19 13:19:11 · 4169 阅读 · 0 评论 -
从logistic regression到MCMC
在博客里写数学公式是个很头疼的问题。我厌倦了一直使用截图的办法,使用mathtex也没有直接写latex方便。所以一个好的办法是写好latex,上传生成的pdf。简介: logistic regression是个很强大很常见的模型,其实它对应概率模型里的最大似然估计——求出概率最高的那个参数取值。但若我们要知道不同的参数分别取什么概率,则需要进行全贝叶斯估计。这时就会出现无法积分的问题原创 2014-02-19 13:11:38 · 1111 阅读 · 0 评论 -
SVD与PCA
PCA(主成分分析)其实只是SVD(奇异值分解)的一个应用。本文讲述了SVD和PCA的实现过程。并带有两个图像处理的例子,以及python源代码。出于美观和效率角度考虑,我还是直接上传latex生成的pdf文档。可点击这里下载部分截图如下:原创 2014-02-25 22:11:46 · 1180 阅读 · 0 评论 -
广义线性模型之logistic regression(二)
注:本文若没特殊声明,所有截图均来自cs229 Machine Learning Lecture notes 1Logistic regression的hypotheses为 其中被称为logistic function或者sigmoid function。由于 sigmoid 函数的输出介于0~1之间,因此我们可以把它看成概率。令 则p(y|X;t原创 2014-02-12 19:05:31 · 1319 阅读 · 0 评论 -
广义线性模型之线性回归(一)
注:本文若没特殊声明,所有截图均来自cs229 Machine Learning Lecture notes 1监督学习中,最常见的是线性回归和分类问题。然而,我们熟知的linear regression和logistic regression这两个机器学习算法其实只是一个更广泛的模型family的特殊特殊情况——广义线性模型(Generalized Linear Models)。本系原创 2014-02-12 18:40:54 · 2587 阅读 · 0 评论 -
广义线性模型(三)
注:所有图片均来自[1]前两篇分别介绍了线性回归和logistic regression。可以看到这两个模型参数更新公式是一样的。这并非巧合,而是因为它们都属于广义线性模型(Generalized Linear Models)。首先引入exponential family的概念。如果一类分布(a class of distribution)属于exponential family,那么原创 2014-02-12 20:57:07 · 1221 阅读 · 0 评论 -
基于《Web Intelligence and Big Data》的自我梳理 五
五、CONNECT有了facts 和 rules,我们可以进行推断。比如:fact: Obama is president of USArule: X is president of C => X is leader of C我们可以推出 Obama is leader of USA。Semantic Web 语义网大致思路就是从网上抓取facts (如,Wekipedia)原创 2013-12-17 23:59:21 · 879 阅读 · 0 评论 -
基于《Web Intelligence and Big Data》的自我梳理 三、四
三、LOADLOAD可以理解为数据实际上的处理。首先看看数据库。传统关系型数据库主要是面向事务的。最早基于row-oriented存储,使用B+树索引。由于不同事务间的并发,为了满足ACID(原子性,一致性,隔离性,持久性),传统关系型数据库加入了锁以及其他维护数据库一致性的机制。随着,数据表的增大,一个表可能有很多个列。假使我只要查询记录中的某几个字段,基于行存储的数据库仍然要读取所有的字段原创 2013-12-16 22:44:24 · 945 阅读 · 0 评论 -
生成模型中的高斯判别分析和朴素贝叶斯
设样本为X(大写X表示向量),其类别为y。下面的图片若非特殊声明,均来自cs229 Lecture notes 2。用于分类的机器学习算法可以分为两种:判别模型(Discriminative learning algorithms)和生成模型(Generative Learning algorithms)。判别模型试图直接求出p(y|X),如logistic regression,或者直接将样原创 2014-02-11 23:01:00 · 1273 阅读 · 0 评论
分享