
机器学习
咆哮蜗牛
这个作者很懒,什么都没留下…
展开
-
Log-linear Models
Log-linear模型广泛用于NLP分类任务中。Log-linear模型给出观察对象/标记输出(observation/label)对一个联合概率,其中(x, y)∈X×Y: (1) 其中是一个实值特征权重向量,是特征函数:(x,y)——>实数特征向量。 下面讲解Log-line翻译 2013-04-19 11:11:58 · 2183 阅读 · 1 评论 -
深层置信网的快速学习方法(Deep Learning)
来自这篇论文:A fast learning algorithm for deep belief nets转自:http://www.doesbetter.com/archives/35Geoffrey E.Hinton and Simon Osindero 摘要:使用互补先验消除explainingaway现象(互补先验:在具有双向的链式结构中,某数据推出的结果(后验)在反转载 2014-01-08 19:36:49 · 5326 阅读 · 2 评论 -
An Introduction to Variational Methods
这一系列的文章,用以对Variational Methods(变分法),做一个粗浅的入门介绍,主要的描述和依据来源于Bishop的书《pattern recognition and machine learning》 和 Jordan的书《graphical models exponential families and variational inference》,有兴趣的同学可以自行深入研转载 2014-01-07 20:47:36 · 2115 阅读 · 0 评论 -
Gibbs Sampling(吉布斯采样)
为什么要写关于Gibbs Sampling的文章呢?首先Gibbs Sampling是有用滴,Gibbs Sampling在机器学习中主要用于学习阶段的推理,比如求期望(平均值)和积分;再者网上的关于Gibbs Sampling的博客写得不好,资料也不多。废话少说,进入正题。什么是Gibbs SamplingGibbs Sampling是MCMC算法中的一种,用来构造多变量概率原创 2013-12-19 18:04:13 · 22655 阅读 · 0 评论 -
大白话解析模拟退火算法
一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。 爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。如图1所示:假设C点为当前解,爬山算法搜索到A点这个局部最优解就会停止搜索,因为转载 2013-12-17 21:50:15 · 1116 阅读 · 0 评论 -
stanford machine learning 笔记
梯度下降1、梯度下降最好是实现同步梯度下降,异步梯度下降的结果比较奇怪,但也可能有效;2、If α is too small, gradient descent can be slow. If α is too large, gradient descent can overshoot the minimum. It may fail toconverge, or eve原创 2013-11-06 21:30:42 · 1172 阅读 · 0 评论 -
层次聚类的具体实现 Hierarchical clustering implementation
Single linkage(nearest neighbor):两个簇中最近的对象的距离为簇之间的距离;Complete linkage (furthest neighbor):两个簇中最远的对象的距离为簇之间的距离;Group average linkage:两个簇中对象的平均距离为簇之间的距离;原创 2013-10-21 10:25:15 · 1905 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
原文来自:Xianling Mao的专栏 原文地址在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗转载 2013-07-31 11:09:13 · 1084 阅读 · 0 评论 -
机器学习算法
1、朴素贝叶斯分类2、K近邻分类3、线性感知机4、线性支持向量机5、K-means聚类及层次聚类6、混合模型基础7、线性回归与逻辑回归8、梯度下降法9、马尔科夫模型与语言模型10、隐马模型基础11、网页排序基础,pagerank,learning to rank 基础(pointwise,pairwise)advanced12、带正则化的逻辑回归,拟原创 2013-06-21 09:35:54 · 1045 阅读 · 0 评论 -
Widrow-Hoff算法的原始及对偶形式
Widrow-Hoff算法(也就是Adaline算法)可用于线性回归,能收敛到最小二乘解,和感知器算法相似。其算法如下:给定训练集S和学习率η∈R+ Widrow-Hoff算法的原始形式: w0←0;b0←0,(xi,1)表示向量 重复 for i=1 to m: (w,b)←(w,b)-η(i>+b-yi)(xi,1) end for 直到收敛条件被满足 返回原创 2013-06-18 18:31:02 · 5910 阅读 · 0 评论 -
自然语言和机器学习笔记
信息熵(Information Entropy) 信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。 计算给定的样本集X的信息熵的公式:Entropy(X) = ∑-pi log2pi 信息熵越大表示样本集S分类越分散,信息熵越小则表明样本集X分类越集中。当S中n个分类出现的概原创 2013-06-19 10:30:31 · 1377 阅读 · 0 评论 -
The Perceptron Algorithm
The Perceptron Algorithm(primal form) 感知机算法的原始形式The Perceptron Algorithm (dual form) 感知机算法的对偶形式原创 2013-06-14 16:08:16 · 2315 阅读 · 0 评论 -
Jensen不等式及其证明
如有错误,欢迎指正word版证明:Jensen不等式及其证明.docxhttp://download.youkuaiyun.com/detail/x_yz_/5362227原创 2013-05-12 18:21:57 · 14646 阅读 · 1 评论 -
机器学习领域的大家
谈机器学习(Machine Learning)大家 (full version)闲着无事,想写点一些我所了解的machine learning大家。由于学识浅薄,见识有限,并且仅局限于某些领域,一些在NLP及最近很热的生物信息领域活跃的学者我就浅陋无知,所以不对的地方大家仅当一笑。Machine Learning 大家(1):M. I. Jordan (http://www.cs.转载 2013-05-27 20:14:08 · 1173 阅读 · 0 评论 -
计算机视觉文献与代码资源
CVonlinehttp://homepages.inf.ed.ac.uk/rbf/CVonlinehttp://homepages.inf.ed.ac.uk/rbf/CVonline/unfolded.htmhttp://homepages.inf.ed.ac.uk/rbf/CVonline/CVentry.htm李子青的大作:Markov Random Fiel转载 2013-05-09 18:47:42 · 1857 阅读 · 1 评论 -
语言模型 Language Modeling
1、语言模型的定义 : 符号含义: V-->语言中所有单词的集合,且为有限集; -->语言中的句子,且n>=1,,为特殊符号STOP(假设STOP不在V中); -->有限集V上的所有句子的集合,为无限集,包含只有一个特殊符号STOP的句子。 正式定义: 语言模型由有限集V和概率函数组成,且满足,原创 2013-05-09 15:33:33 · 3583 阅读 · 0 评论 -
最大熵马尔科夫和隐马尔科夫比较 MEMMs HMMs
MEMMs:最大熵马尔科夫模型转移概率: HMMs:隐马尔科夫模型转移概率(可以把转移概率和发射概率合起来看作转移概率):MEMMs可以利用更多的特征,如大小写,词缀,前后词等等,即可以很好的利用上下文MEMMs的参数估计很费力,但是对于很多NLP任务是可以解决的。翻译 2013-05-09 09:55:28 · 1530 阅读 · 0 评论 -
标记偏置 隐马尔科夫 最大熵马尔科夫 HMM MEMM
隐马尔科夫模型(HMM):图1. 隐马尔科夫模型隐马尔科夫模型的缺点: 1、HMM只依赖于每一个状态和它对应的观察对象: 序列标注问题不仅和单个词相关,而且和观察序列的长度,单词的上下文,等等相关。 2、目标函数和预测目标函数不匹配: HMM学到的是状态和观察序列的联合分布P(Y,X),而预翻译 2013-04-24 13:53:09 · 3167 阅读 · 0 评论