
统计学习方法
文章平均质量分 79
ep_mashiro
日拱一卒,功不唐捐
展开
-
感知机学习笔记
感知机定义 感知机是根据输入实例的特征向量x对其进行二类分类的线性分类模型,属于判别模型: f(x)=sign(w⋅x+b)f(x)=sign(w\cdot x+b) 感知机模型对应于输入空间(特征空间)中的分离超平面 w⋅x+b=0w\cdot x+b=0学习策略 极小化损失函数: minL(w,b)=−∑yi(w⋅xi+b)minL(w,b)=-\sum y_{i}(w\cdot原创 2015-11-03 12:39:56 · 546 阅读 · 0 评论 -
机器学习面试题
平时想到啥就记下来,慢慢补。 算法笔试复习性能度量(模型评价) 优化算法 Logistic Regression 决策树 支持向量机 贝叶斯分类器 聚类算法 Boosting、Bagging和Stacking EM算法 过拟合、欠拟合、正则化内容来源 机器学习面试1000题 李航《统计学习方法》 周志华《机器学习》 《Hands-On Machine Learn...原创 2018-01-18 10:42:12 · 588 阅读 · 7 评论 -
支持向量机知识点整理
SVM 知识框架 SVM的原理是什么? 有别于感知机,SVM在特征空间中寻找间隔最大化的分离超平面的线性分类器SVM为什么采用间隔最大化? 超平面可以有无穷多个,但是几何间隔最大的分离超平面是唯一的,这样的分类结果也是鲁棒的,对未知实例的泛化能力最强。什么是支持向量? 对于硬间隔,支持向量就是间隔边界上的样本点 对于软间隔,支持向量就是间隔边界、间隔带内、分离超平面误分类一侧的样本原创 2018-01-17 13:44:29 · 1048 阅读 · 2 评论 -
决策树知识点整理
目的:为了让模型的不确定性降低的越快越好三个过程:特征选择、决策树的生成、决策树的剪枝 (1)特征选择: 信息熵:随机变量不确定性的度量 H(X)=−∑ni=1pilogpiH(X)=−∑i=1npilogpiH(X)=-\sum_{i=1}^np_ilogp_i 信息增益:(ID3算法),得知特征X的信息而使类Y的信息的不确定减少的程度 g(D,A)=H(D)−H(D|A)g(D,...原创 2018-01-09 11:31:04 · 1452 阅读 · 0 评论 -
贝叶斯分类知识点梳理
生成模型和判别模型 判别模型:输入x,直接建模P(y|x)来得到c 生成模型:先对P(y,x)进行建模,然后再由此获得P(y|x)先验概率、条件概率/似然 类先验概率:p(y) 条件概率、似然:p(x|y)朴素贝叶斯分类 目标函数:(其实是最小化分类错误率) y=argmaxP(y=Ck)∏jP(Xj=xj|Y=ck)y=argmaxP(y=Ck)∏jP(Xj=xj|Y=ck)y...原创 2018-01-02 15:32:35 · 819 阅读 · 0 评论 -
深度学习知识点整理
开一个坑2.请简要介绍下tensorflow的计算图 @寒小阳:Tensorflow是一个通过计算图的形式来表述计算的编程系统,计算图也叫数据流图,可以把计算图看做是一种有向图,Tensorflow中的每一个计算都是计算图上的一个节点,而节点之间的边描述了计算之间的依赖关系。原创 2018-01-19 11:11:33 · 422 阅读 · 0 评论 -
Logistic Regression知识点整理
Logistic RegressionLinear Regression 的原理(Logistic Regression 的基础) 目标函数 f(x)=wx+bf(x)=wx+bf(x)=wx+b 损失函数 均方误差 E=∑mi=1(f(xi)−yi)2E=∑i=1m(f(xi)−yi)2E = \sum_{i=1}^m(f(x_i)-y_i)^2 推广至多元 E=(y−wx)T(y−w...原创 2018-01-19 11:18:00 · 964 阅读 · 0 评论 -
缺失值处理知识点整理
来源《Python数据分析与数据化运营》 批注1: (丢弃)不宜采用的场景: (1)数据集总体中存在大量的数据记录不完整情况且比例较大,例如超过10%,删除这些带有缺失值的记录意味着将会损失过多有用信息。 (2)带有缺失值的数据记录大量存在着明显的数据分布规律或特征,例如带有缺失值的数据记录的label主要集中于某一类或者某积累,如果删除会导致对应的数据样本丢失大量特征信息,导致模型过...原创 2018-02-12 19:51:02 · 2527 阅读 · 0 评论 -
聚类算法知识点整理
聚类分析能够解决的问题 数据集可以分为几类、每个类别有多少样本量、不同类别中各个变量的强弱关系如何、不同类别的典型特征是什么、基于类别划分的其他应用(如图片压缩)知识点1:Kmeans流程,时间复杂度,优缺点,影响因素,改进方法 知识点2:KNN训练边界、KNN流程、K值选择方法、应用场景 知识点3:聚类应用场景,分类,原理,评价指标 知识点4:相似性度量、距离度量 1. K...原创 2018-01-18 14:23:22 · 4922 阅读 · 0 评论 -
性能度量(模型评价)
分类结果混淆矩阵 ——预测 预测 正例 TP FN 反例 FP TN 准确率: acc = (TP+FP)/(TP+TN+FP+FN) 查准率或精度Precision: P=(TP)/(TP+FP) 查全率或者灵敏性或者召回率Recall: R=(TP)/(TP+FN) P-R曲线:横坐标为P,纵坐标为R,平衡点BEP满足P=R的取...原创 2018-03-05 21:39:19 · 417 阅读 · 0 评论 -
过拟合、欠拟合、正则化
过拟合和欠拟合产生原因 欠拟合:模型学习能力不足(太简单),无法学习到数据的真实分布,即模型的期望输出和真实输出之间有很大的差异,高偏差。过拟合:模型学习能力过分(太复杂),因噪声干扰等因素导致数据的分布有轻微的波动,但是模型也学习到了,导致模型的训练结果得到的数据分布过分依赖于所输入的数据,高方差。从模型泛化程度上理解,欠拟合的模型在训练集和测试集上表现不足,而过拟合的模型尽管在训练...原创 2018-03-26 09:51:44 · 848 阅读 · 0 评论 -
优化算法知识点整理
几种优化算法,梯度下降的种类 考虑无约束优化问题 minxf(x)minxf(x)min_x f(x)梯度下降梯度下降法是一种常用的一阶优化方法,是求解无约束优化问题最简单、最经典的方法之一。其中,f(x)连续可微。若能构造一个序列x0,x1,x2,...x0,x1,x2,...x^0,x^1, x^2,...满足f(xt+1)<f(xt),t=0,1,2...f...原创 2018-01-25 20:55:06 · 576 阅读 · 0 评论 -
EM算法知识点整理
自己的理解 目标θ̃ =argmaxθP(Y|θ)\tilde{\theta} = argmax_\theta P(Y|\theta) 即我们要估计一个合理的θ̃ \tilde{\theta}使得P(Y|θ)P(Y|\theta)达到最大值 如果存在隐变量ZZ,我理解为ZZ是一个没有表现出来但是又是必要的一个中间态,那么P(Y|θ)P(Y|\theta)可以表示为P(Y|θ)=P(Y,Z|θ原创 2018-01-24 14:27:31 · 494 阅读 · 0 评论 -
朴素贝叶斯法学习笔记
贝叶斯分类中最简单的一类:朴素贝叶斯分类。 理解:经验分布,即根据以往数据的呈现结果生成经验,测试数据则符合学习的经验 贝叶斯定理 P(A│B)=(P(AB))/(P(B)) P(B│A)=(P(A│B)P(B))/(P(A)) 朴素贝叶斯分类的原理 对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。 算法流程 STEP1:获取训练原创 2015-11-05 14:49:47 · 589 阅读 · 0 评论 -
决策树学习笔记
这两天时间比较零碎,决策树的内容有点多。上周末去了一趟机器学习研讨会,受益匪浅,当下的状态与自己的期待差距甚远,还是继续埋头学习吧。 本章的把握不是很准确,先mark一些干货,过段时间来整理所学知识。 框架 决策树的模型 决策树学习过程:特征选择、决策树的生成、决策树的修建 ID3、C4.5、CART算法参考文献 ML—决策树(train,matlab) 决策树学习笔记整理 参考书目原创 2015-11-11 13:09:58 · 1195 阅读 · 0 评论 -
HMM算法
HMM算法算法描述Generating Patterns Generating Patterns包括determination pattern和non- determiniation pattern 两种 ,在non-determiniation中,我们假设当下的状态仅与前k个状态有关,这种假设下得到的模型也就是K阶马尔科夫模型。当k=1时,得到1阶马尔科夫模型。 一阶马氏模型有原创 2015-11-18 10:54:14 · 1034 阅读 · 0 评论 -
K近邻法(KNN)学习笔记(used by python & matlab)
1. K 近邻法,简单的说,就是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。 2. 模型: 三要素:距离度量、k值的选择和分类判决规则 2.1 距离度量 定义xix_i和xjx_j之间的距离为: Lp(xi,xj)=(∑l|xli−xlj|p)1/pL_p(x_i,x_j)=(\sum_l|原创 2015-11-04 17:26:58 · 2315 阅读 · 0 评论 -
K-means学习笔记
今日学习内容: K-means的理解,Python代码实现,以及归纳学习可以主要分为两大类:无监督学习和监督学习。 其中监督学习包括神经网络、决策树、SVM、贝叶斯过滤等等 无监督学习就是这里要提到的聚类。 分配对象到一个类中使得在同一个类别的对象比不同类的对象更加类似,其目的是发现存在数组中的自然(或者说更有意义)的类。 Q:那么如何衡量相似度呢? A:用距离( ⊙ o ⊙ )! 聚原创 2015-11-27 09:11:47 · 462 阅读 · 0 评论 -
Document Filtering(naive bayes method) used by python
The algorithms we mentioned can solve the more general problem of learning to recognize whether a document belongs in one category or another. Early attempts to filter spam were all rule-based classi原创 2015-11-28 16:45:22 · 426 阅读 · 0 评论 -
EM算法初探
说是初探,然而并没有什么干货,开一个页面,等学到一定深度来整理。 前言 在概率模型中,如果变量都是观测变量(observable variable),则可以直接用极大似然估计法活着贝叶斯估计方法,但是变量除了有observable variable,还有潜在变量(latent variable),则需要采用EM(expectation maximization algorithm)算法。 三硬原创 2015-12-01 08:28:51 · 411 阅读 · 0 评论 -
贝叶斯分类器笔记
贝叶斯分类器从黑人兄弟谈起某一天走到路上,和一个黑人擦肩而过,在惊叹他牙好白的时候,也想到了一个问题,这位黑人兄弟是打哪儿来的呢?A. 非洲 B.美洲 C.欧洲 D.亚洲我猜大多数人会和我一样,倾向于黑人兄弟来自于非洲。为啥?在没有提供其他有用信息,我们只能根据经验判断:非洲的黑人较其他洲的黑人多的多,因此我们认为这位黑人兄弟来自非洲的概率最大。经验往往和概率息息相关,我们认为黑人兄弟来自非洲这个想原创 2016-05-22 17:10:13 · 755 阅读 · 0 评论 -
[机器怎么老学习]线性回归模型
[机器怎么老学习]线性回归模型先引出机器学习万变不离其宗的公式:损失函数+惩罚项当损失函数为Square Loss时,所对应的模型就是Linear Regression。预测值ŷ (w,x)=w0+w1x1+…+wnxn=wTx\hat y(w,x)=w_0+w_1x_1+…+w_nx_n=w^TxOrdinary Least Square目标: min||Xw−y||22min ||Xw-y||原创 2016-10-29 16:02:36 · 468 阅读 · 0 评论 -
Boosting、Bagging和Stacking知识点整理
全是坑,嘤嘤哭泣= =简述下Boosting的工作原理 Boosting主要干两件事:调整训练样本分布,使先前训练错的样本在后续能够获得更多关注 集成基学习数目 Boosting主要关注降低偏差(即提高拟合能力)描述下Adaboost和权值更新公式 Adaboost算法是“模型为加法模型、损失函数为指数函数、学习算法为前向分布算法”时的二类分类学习方法。 Adaboost有两项内原创 2018-01-19 11:21:57 · 1870 阅读 · 0 评论 -
树模型特征重要性评估方法
前言在特征的选择过程中,如果学习器(基学习器)是树模型的话,可以根据特征的重要性来筛选有效的特征。本文是对Random Forest、GBDT、XGBoost如何用在特征选择上做一个简单的介绍。各种模型的特征重要性计算Random Forests袋外数据错误率评估 RF的数据是boostrap的有放回采样,形成了袋外数据。因此可以采用袋外数据(OOB)错误率进行特征重要...原创 2018-05-07 21:28:33 · 13425 阅读 · 3 评论