- 博客(16)
- 收藏
- 关注
原创 机器学习--决策树之随机森林
随机森林是属于集成学习中bagging方法下的一种算法。不扯那么多,随机森林”随机”在两个方面: 1)如果训练集大小为N,对于每棵树而言,随机且有放回地从训练集中的抽取N个训练样本(称为bootstrap sample方法,中文好像翻译作自举),作为该树的训练集; 2)如果每个样本的特征维度为M,指定一个常数m<...
2018-07-14 20:18:35
256
原创 机器学习--决策树之ID3\C4.5与剪枝
ID3上一篇我们说了这个CART,既能处理回归问题,也能处理分类问题。其实像后续的随机森林啊,boosting啊,都是以这个CART为基础的。除了CART之外,还有两种决策树说的比较多,我们这里来看一下.第一个呢就是ID3。ID3和CART 不一样的地方,就是CART用GINI系数来挑选特征,ID3呢用信息增益来挑选特征。 这个其实上篇也谈到了,“信息增益的意思是在得知随机变量X的信息之后,...
2018-07-13 23:19:18
3037
1
原创 机器学习---决策树之CART
下面开启我们的数算法旅程,我们下面先认识几个概念。熵熵, 我记得第一次接触这个名词应该是在高中化学。里面有提到过这个概念。在信息论中,这是一个很重要的概念,它是对随机变量不确定性的度量。假如说,有一个随机变量,它的概率分布为: P(X=xi)=piP(X=xi)=piP(X=x_i)=p_i 那么这个随机变量的熵就是: H(X)=−∑i−1npilogpiH(X)=−∑i−1np...
2018-07-08 22:58:58
309
原创 深度学习之LSTM与GRU
并不是为了科普,权当自己的笔记。LSTM遗忘门: f(t)=σ(Wf.[ht−1,xt]+bf)f(t)=σ(Wf.[ht−1,xt]+bf)f(t)=\sigma(W_f.[h_{t-1},x_t] + b_f) 输入门:it=σ(Wi.[ht−1,xt]+bi)it=σ(Wi.[ht−1,xt]+bi)i_t=\sigma(W_i.[h_{t-1},x_t] + b_i) ...
2018-07-07 23:59:37
284
原创 自然语言处理--HMM,MEMM,CRF中的decoding问题
我们知道,这三张模型的decoding都是采用维特比算法,具体的实现过程又不一样,我们一个一个来看,其中有不少精妙处,值得细细评味。HMMHMM
2018-07-07 18:30:45
518
原创 机器学习--感知器
感知器这一篇我们要来说说感知器。感知器这个算法,可以说有点冷门,它太初级,不管是学术上还是工业界,没人用的。但是我要说,这个算法真的很重要。甚至可以说,它是很多算法的源起。前面所说的逻辑回到跟它有千丝万缕的联系,而且它是SVM和神经的基础。光着一句话告诉大家,真的就是三天三夜都说不完了。 为什么我纠结于这个算法呢?其实这个算法很好说的,它简单。把这个算法模型形式写出来,yyy等等怎样怎样xx...
2018-07-04 23:11:58
530
原创 机器学习--模型为什么是这个样子-期望.
昨晚写完逻辑回归准备写感知机时,突然想到了两个问题,感知机就停下笔来。第一个问题是:我说了不管是分类还是回归,都是要对p(y|x)p(y|x)p(y|x)进行建模,也说了,线性回归是N(y|wTx,σ)N(y|wTx,σ)N(y|w^Tx,\sigma),逻辑回归是Ber(y|sigm(wTx))Ber(y|sigm(wTx))Ber(y|sigm(w^Tx))。也通过极大似然估计出了模型参数,一...
2018-07-04 22:40:43
250
原创 机器学习--逻辑斯蒂回归
重新开始我们的机器学习之路!逻辑回归(Logistic Regression)逻辑回归,虽然叫它回归,但是其实它是分类算法,更准确地说叫分类建模方法,(详见我的自然语言处理系列)。我这样说,分类和回归本质上是同一类问题不知道有没有想打我?哈哈。大家会说,怎么可能呢,分类是分类,回归是回归啊,这是常识啊!我这样说是因为,不管是分类问题还是问题,本质上都是要对如下概率进行建模: p(y|x)...
2018-07-02 22:50:30
208
原创 自然语言处理--HMM.MEMM,CRF(四)
MEMM(Maximum-entry Markov models)最大熵模型好,说完了,HMM,我们来看看MEMM。 MEMM和HMM第一个不同的地方是,HMM是生成式模型,而MEMM是判别式模型,它是对如下概率进行建模: p(y1,y2,...,yn|x1,x2,...,xn)p(y1,y2,...,yn|x1,x2,...,xn)p(y_1, y_2, ...,y_n|x_1, x_2...
2018-07-01 17:57:03
182
原创 自然语言处理--HMM.MEMM,CRF(五)
CRF(Conditional random fields)条件随机场其实我最想说的是这个!!! 战线拉得太长了。 CRF可以看做是MEMM的进阶版本,它们都是要对同一个概率进行建模:p(y1,...,yn|x1,...xn)p(y1,...,yn|x1,...xn)p(y_1,...,y_n|x_1,...x_n) 我们回看一下,MEMM是怎么建模的...
2018-07-01 17:56:35
400
原创 自然语言处理--HMM.MEMM,CRF(三)
自然语言处理–HMM,MEMM,CRF(三)终于到正题了,现在就来说说HMM, 隐马尔科夫模型!Hidden Markov ModelsHMM 要解决什么问题?我们在学一个算法之前,我觉得先要了解这个算法压解决什么问题,方法都是为了问题而存在,问题理解的不深刻,要多理解算法也是很难的。 HMM要解决的问题,是在自然语言处理里成为 序列标注问题(Sequence Tagging...
2018-07-01 00:47:53
640
原创 自然语言处理--HMM,MEMM和CRF(一)
写在前面这一系列是要详细讨论这三种模型内在的关联与区别,深入地探讨每个模型内在的机理,希望自己可以成功。首先声明,仅作笔记用。朴素贝叶斯(NB)我们先不直接说HMM,MEMM,CRF这三种模型的事,在此之前,我们先来聊聊朴素贝叶斯。 假设我们有训练样本x1,x2,...,xnx1,x2,...,xnx_1,x_2,...,x_n,它们属于K个标签内。每一个样本有ddd维特征即,x...
2018-05-07 15:43:17
1063
原创 机器学习--线性回归
机器学习–线性回归写在前面Hello, world! 这是我的第一篇技术博客。在接触机器学习的过程中,从来都是百度google很多大神的分享,没有想过会写属于自己的技术博客。如今接触机器学习、深度学习、自然语言处理已经将近两年了, 多多少少有了点自己的想法,所以在这里将自己学习的一点点知识分享出来,希望有路过的同道批评指正,如果能帮助到刚入门的同学,那将是我最大的快乐。 当然,这仅...
2018-05-04 14:27:56
506
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人