晚照-优快云博客

原创机器学习--决策树之随机森林

随机森林是属于集成学习中bagging方法下的一种算法。不扯那么多，随机森林”随机”在两个方面： 1)如果训练集大小为N，对于每棵树而言，随机且有放回地从训练集中的抽取N个训练样本（称为bootstrap sample方法,中文好像翻译作自举），作为该树的训练集； 2)如果每个样本的特征维度为M，指定一个常数m&lt;...

2018-07-14 20:18:35 256

原创机器学习--决策树之ID3\C4.5与剪枝

ID3上一篇我们说了这个CART，既能处理回归问题，也能处理分类问题。其实像后续的随机森林啊，boosting啊，都是以这个CART为基础的。除了CART之外，还有两种决策树说的比较多，我们这里来看一下.第一个呢就是ID3。ID3和CART 不一样的地方，就是CART用GINI系数来挑选特征，ID3呢用信息增益来挑选特征。这个其实上篇也谈到了，“信息增益的意思是在得知随机变量X的信息之后，...

2018-07-13 23:19:18 3037 1

原创机器学习---决策树之CART

下面开启我们的数算法旅程，我们下面先认识几个概念。熵熵，我记得第一次接触这个名词应该是在高中化学。里面有提到过这个概念。在信息论中，这是一个很重要的概念，它是对随机变量不确定性的度量。假如说，有一个随机变量，它的概率分布为： P(X=xi)=piP(X=xi)=piP(X=x_i)=p_i 那么这个随机变量的熵就是： H(X)=−∑i−1npilogpiH(X)=−∑i−1np...

2018-07-08 22:58:58 309

原创深度学习之LSTM与GRU

并不是为了科普，权当自己的笔记。LSTM遗忘门： f(t)=σ(Wf.[ht−1,xt]+bf)f(t)=σ(Wf.[ht−1,xt]+bf)f(t)=\sigma(W_f.[h_{t-1},x_t] + b_f) 输入门：it=σ(Wi.[ht−1,xt]+bi)it=σ(Wi.[ht−1,xt]+bi)i_t=\sigma(W_i.[h_{t-1},x_t] + b_i) ...

2018-07-07 23:59:37 284

原创机器学习--支持向量机

我们说完了感知机，下面就要聊聊支持向量机，可以说它是感知机的进化版本

2018-07-07 21:22:41 228

原创自然语言处理--HMM,MEMM,CRF中的decoding问题

我们知道，这三张模型的decoding都是采用维特比算法，具体的实现过程又不一样，我们一个一个来看，其中有不少精妙处，值得细细评味。HMMHMM

2018-07-07 18:30:45 518

原创机器学习--感知器

感知器这一篇我们要来说说感知器。感知器这个算法，可以说有点冷门，它太初级，不管是学术上还是工业界，没人用的。但是我要说，这个算法真的很重要。甚至可以说，它是很多算法的源起。前面所说的逻辑回到跟它有千丝万缕的联系，而且它是SVM和神经的基础。光着一句话告诉大家，真的就是三天三夜都说不完了。为什么我纠结于这个算法呢？其实这个算法很好说的，它简单。把这个算法模型形式写出来，yyy等等怎样怎样xx...

2018-07-04 23:11:58 530

2018-07-04 22:40:43 250

原创机器学习--逻辑斯蒂回归

重新开始我们的机器学习之路！逻辑回归(Logistic Regression)逻辑回归，虽然叫它回归，但是其实它是分类算法，更准确地说叫分类建模方法,(详见我的自然语言处理系列)。我这样说，分类和回归本质上是同一类问题不知道有没有想打我？哈哈。大家会说，怎么可能呢，分类是分类，回归是回归啊，这是常识啊！我这样说是因为，不管是分类问题还是问题，本质上都是要对如下概率进行建模： p(y|x)...

2018-07-02 22:50:30 208

原创自然语言处理--HMM.MEMM,CRF(四)

MEMM(Maximum-entry Markov models)最大熵模型好，说完了，HMM，我们来看看MEMM。 MEMM和HMM第一个不同的地方是，HMM是生成式模型，而MEMM是判别式模型，它是对如下概率进行建模： p(y1,y2,...,yn|x1,x2,...,xn)p(y1,y2,...,yn|x1,x2,...,xn)p(y_1, y_2, ...,y_n|x_1, x_2...

2018-07-01 17:57:03 182

原创自然语言处理--HMM.MEMM,CRF(五)

CRF(Conditional random fields)条件随机场其实我最想说的是这个！！！战线拉得太长了。 CRF可以看做是MEMM的进阶版本，它们都是要对同一个概率进行建模：p(y1,...,yn|x1,...xn)p(y1,...,yn|x1,...xn)p(y_1,...,y_n|x_1,...x_n) 我们回看一下，MEMM是怎么建模的...

2018-07-01 17:56:35 400

原创自然语言处理--HMM.MEMM,CRF(三)

自然语言处理–HMM，MEMM,CRF(三)终于到正题了，现在就来说说HMM, 隐马尔科夫模型！Hidden Markov ModelsHMM 要解决什么问题？我们在学一个算法之前，我觉得先要了解这个算法压解决什么问题，方法都是为了问题而存在，问题理解的不深刻，要多理解算法也是很难的。 HMM要解决的问题，是在自然语言处理里成为序列标注问题(Sequence Tagging...

2018-07-01 00:47:53 640

原创机器学习--线性回归(二)先验与正则化

原创自然语言处理--HMM.MEMM,CRF(二)

待完成

2018-05-07 17:19:20 230

原创自然语言处理--HMM,MEMM和CRF(一)

写在前面这一系列是要详细讨论这三种模型内在的关联与区别，深入地探讨每个模型内在的机理，希望自己可以成功。首先声明，仅作笔记用。朴素贝叶斯(NB)我们先不直接说HMM,MEMM,CRF这三种模型的事，在此之前，我们先来聊聊朴素贝叶斯。假设我们有训练样本x1,x2,...,xnx1,x2,...,xnx_1,x_2,...,x_n，它们属于K个标签内。每一个样本有ddd维特征即，x...

2018-05-07 15:43:17 1063

原创机器学习--线性回归

机器学习–线性回归写在前面Hello, world! 这是我的第一篇技术博客。在接触机器学习的过程中，从来都是百度google很多大神的分享，没有想过会写属于自己的技术博客。如今接触机器学习、深度学习、自然语言处理已经将近两年了，多多少少有了点自己的想法，所以在这里将自己学习的一点点知识分享出来，希望有路过的同道批评指正，如果能帮助到刚入门的同学，那将是我最大的快乐。当然，这仅...

2018-05-04 14:27:56 506

晚照