
机器学习理论
文章平均质量分 85
常见的机器理论学习部分
Sany 何灿
这个作者很懒,什么都没留下…
展开
-
分类问题中的“维数灾难”
在看机器学习的论文时,经常会看到有作者提到“curse of dimensionality”,中文译为“维数灾难”,这到底是一个什么样的“灾难”?本文将通过一个例子来介绍这令人讨厌的“curse of dimensionality”以及它在分类问题中的重要性。假设现在有一组照片,每一张照片里有一只猫或者一条狗。我们希望设计一个分类器可以自动地将照片中的动物辨别开来。为了实现这个目标,首先需要考虑如何将照片中的动物的特征用数字的形式表达出来。猫与狗的最大区别是什么?有人可能首先想到猫与狗的颜色不一样,有人则转载 2020-09-04 10:12:31 · 577 阅读 · 0 评论 -
Bayesian information criterion和 Akaike information criterion中的模型参数个数(自由度)计算 | 以高斯混合分布为例
在Scikit-Learn库里面调用sklearn.mixture.GaussianMixture,有3个重要的属性n_clusters, n_weights和n_covariance,分别对应着簇中心的数量、每个簇的重要性和每个簇的协方差矩阵。重要概念:BIC 贝叶斯信息准则BIC=log(m)p−2log(L^)BIC = log(m)p-2log(\hat L)BIC=log(m)p−2log(L^)其中m是样本数,p是模型参数个数,L^\hat LL^是最大似然函数的值AIC原创 2020-08-15 16:53:50 · 1808 阅读 · 0 评论 -
AIC和BIC准则详解
很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价,同时带来一个机器学习中非常普遍的问题——过拟合。所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法:1. 赤池信息准则(Akaike Information Criterion,AIC)AIC是衡量统计模型拟合优良性的一种标准,由日本统计学家赤池弘次在转载 2020-08-15 16:28:16 · 28338 阅读 · 5 评论 -
最大熵(二)| 约束最优化问题(拉格朗日对偶性)+最大熵模型的极大似然估计 | 《统计学习方法》学习笔记(二十四)
1. 最大熵模型的学习最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优化问题。对于给定的训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}T={(x1,y1),(x2,y2),⋯,(xN,yN)}以及特征函数fi(x,y),i=1,2,⋯ ,nf_i(x,y),i=1,2,\cdots,nfi(x,y),i=1,2,⋯,n,最大熵模型的学习等价于约束最优原创 2020-05-20 00:46:28 · 1870 阅读 · 0 评论 -
最大熵(一)| 最大熵原理+模型 | 《统计学习方法》学习笔记(二十三)
最大熵模型(maximum entropy model )由最大熵原理推导出来。1. 最大熵原理最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。假设离散随机变量X的概率分布是P(X)P(X)P(X),则其熵是H(P)=−∑xP(x)logP(x)H(P)=-\sum_xP(x)logP(x)H(P)=−x∑P(原创 2020-05-20 00:42:56 · 1953 阅读 · 0 评论 -
拉格朗日对偶性 | 《统计学习方法》学习笔记(二十二)
在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转换为对偶问题,通过解对偶问题而得到原始问题的解。该方法应用在许多统计学习方法中,例如,最大熵模型与支持向量机。这里简要叙述拉格朗日对偶性的主要概念和结果。原始问题假设f(x),cj(x),hj(x)f(x),c_j(x),h_j(x)f(x),cj(x),hj(x)是定义在RnR^nRn上的连续可微函数。考虑约束最优化问题minx∈Rnf(x)(C.1)min_{x\in R^n}f(x) \tag{C原创 2020-05-20 00:40:04 · 371 阅读 · 0 评论 -
Logistic Regression| 逻辑斯谛分布+模型+参数估计| 《统计学习方法》学习笔记(二十一)
逻辑斯谛回归模型1. 逻辑斯谛分布定义:设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:F(x)=P(X≤x)=11+e−(x−μ)/γf(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}} \\f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}F(x)=P(X≤x)=1+e原创 2020-05-08 23:30:02 · 3742 阅读 · 0 评论 -
决策树(四)| 分类与回归树模型(CART算法)| 《统计学习方法》学习笔记(二十)
分类与回归树模型(classification and regression tree,CART)由特征选择、树的生成及剪枝组成,可用于分类或回归。以下将用于分类或回归的树称为决策树。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支式取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条原创 2020-05-08 23:25:09 · 1426 阅读 · 3 评论 -
决策树(三)| 决策树生成(ID3算法)+ 决策树剪枝 | 《统计学习方法》学习笔记(十九)
一、决策树的生成1. ID3算法算法核心:在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。具体方法:从根结点(root node)开始,对结点计算所有可能的特征信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点;再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择未知。最后得到一个决策树。ID3相当于用极大似然法进行...原创 2020-05-03 00:47:40 · 1809 阅读 · 0 评论 -
决策树(二)|特征选择 + 信息熵 +信息增益 / 信息增益比 | 《统计学习方法》学习笔记(十八)
特征选择1. 特征选择问题特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。通常特征选择的准则是信息增益或信息增益比。特征选择时决定是决定用哪个特征来划分特征空间。**例1:**15个样本组成的贷款申请训练数据。贷款申请人有4个...原创 2020-04-28 00:23:30 · 2808 阅读 · 0 评论 -
决策树(一)|模型+条件概率分布+学习机制 | 《统计学习方法》学习笔记(十七)
用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。决策树模型与...原创 2020-04-28 00:19:12 · 3509 阅读 · 0 评论 -
朴素贝叶斯(二)|极大似然估计+学习与分类算法+贝叶斯估计| 《统计学习方法》学习笔记(十六)
朴素贝叶斯法的参数估计1. 极大似然估计在朴素贝叶斯法中,学习意味着估计P(Y=ck)P(Y=c_k)P(Y=ck)和P(X(j)=x(j)∣Y=ck)P(X^{(j)}=x^{(j)}|Y=c_k)P(X(j)=x(j)∣Y=ck)。可以应用极大似然估计法估计相应的概率。先验概率P(Y=ck)P(Y=c_k)P(Y=ck)的极大似然估计是P(Y=ck)=∑i=1NI(yi=ck)N,...原创 2020-04-28 00:11:30 · 726 阅读 · 0 评论 -
朴素贝叶斯(一)|基本方法+后验概率最大化| 《统计学习方法》学习笔记(十五)
朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。朴素贝叶斯法的学习与分类1. 基本方法设输入空间χ⊆Rn\chi \subseteq \bold ...原创 2020-04-28 00:03:18 · 593 阅读 · 0 评论 -
曼哈顿距离(L1范数)& 欧式距离(L2范数)区别
特征空间中两个实例点的距离是两个实例点相似程度的反映。特征空间一般是n维实数向量空间Rn\bold R^nRn(即欧式空间)。使用的距离是欧式距离,但也可以是其他距离,如更一般的LpL_pLp距离(Lp distanceL_p\space distanceLp distance)或Minkowski距离。设特征空间χ\chiχ是n维实数向量空间Rn\bold R^nRn,...原创 2020-04-27 23:57:42 · 8308 阅读 · 0 评论 -
k近邻法(三)|构造平衡kd树+搜索kd树| 《统计学习方法》学习笔记(十四)
k近邻法的实现:kd树实现k近邻法时,主要考虑的问题是如何对训练数据进行快速k近邻搜索。这点在特征空间的维数大及训练数据容量大时尤其必要。k近邻法最简单的实现方法是线性扫描(linear scan)。这时要计算输入实例与每一个训练实例的距离。当训练集很大时,计算非常耗时,这种方法是不可行的。为了提高k近邻搜索的效率,可以考虑使用特殊的结构存储训练数据,以减少计算距离的次数。1. 构造kd树...原创 2020-04-27 23:52:09 · 2370 阅读 · 0 评论 -
k近邻法(二)|距离变量+k值选择+分类决策规则| 《统计学习方法》学习笔记(十三)
k近邻模型实质:对应于对特征空间的划分。模型由三个基本要素——距离度量、k值的选择和分类决策规则决定1. 模型k近邻法中,当训练集、距离度量(如欧式距离)、k值及分类决策(如多数表决)确定后,对于任何一个新的输入实例,它所属的类唯一确定。这相当于根据上述要素将特征空间划分为一些子空间,确定子空间里的每个点所属的类。可从最近邻算法中看出。特征空间中,对每个训练实例点,距离该点比其他点更近的...原创 2020-04-27 23:48:55 · 2302 阅读 · 0 评论 -
k近邻法(一)|摘要+算法| 《统计学习方法》学习笔记(十二)
k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。这里只讨论分类问题中的k近邻法。k近邻法的输入为实例的特征向量,对应于特征空间的点;输出的实例的类别,可以取多类。k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻法不具有显示的学习过程。k近邻法实际上利用训练数据集对特...原创 2020-04-27 23:40:47 · 230 阅读 · 0 评论 -
感知机(三)| 算法原始形式和对偶形式+算法收敛性 | 《统计学习方法》学习笔记(十一)
感知机学习算法感知机学习问题转化为求解损失函数式(2)的最优化问题,最优化的方法是随机梯度下降法。一、 感知机学习算法的原始形式给定一个训练数据集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}T={(x1,y1),(x2,y2),...,(xN,yN)}其中,xi∈χ=Rn,y∈...原创 2020-04-20 23:00:10 · 803 阅读 · 0 评论 -
感知机(二) | 线性可分性+学习策略 | 《统计学习方法》笔记(十)
一、 数据集的线性可分性定义:给定一个数据集T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}T={(x1,y1),(x2,y2),...,(xN,yN)}其中,xi∈χ=Rnx_i\in \chi=R^nxi∈χ=Rn,yi∈γ={+1,−1},i=1,2,...,Ny_i\in \...原创 2020-04-20 09:59:31 · 621 阅读 · 0 评论 -
感知机(一) | 内容摘要+模型 | 《统计学习方法》笔记(九)
感知机知识点感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1两值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机学习算法具有简单易行的特点,分为原始形式和对...原创 2020-04-20 09:57:35 · 240 阅读 · 0 评论 -
机器学习分类、标注、回归问题|15mins 入门 | 《统计学习方法》学习笔记(八)
一、分类问题定义:在监督学习中,当输出变量Y去有限个离散值时,预测问题便成为分类问题。这是,输入变量X可以是离散的,也可以是连续的。分类器(classifier):监督学习从数据中学习一个分类模型或分类决策函数分类(classification):分类器对新的输入进行输出的预测类(class):可能的输出。分类的类别为两个时,为二类分类问题,多个时,为多类分类问题分类问题过程:图中(x1...原创 2020-04-16 22:54:49 · 584 阅读 · 0 评论 -
生成模型与判别模型 | 15mins 入门 | 《统计学习方法》学习笔记(七)
生成模型与判别模型监督学习任务:学习一个模型,应用这个模型,对给定的输入预测相应的输出。模型形式:决策函数:Y=f(X)Y = f(X)Y=f(X)条件概率分布:P(Y∣X)P(Y|X)P(Y∣X)学习方法:生成方法(generative approach)由数据学习联合概率分布P(X,Y)P(X,Y)P(X,Y),然后求出条件概率分布P(Y∣X)P(Y|X)P(Y∣X)作为...原创 2020-04-16 22:52:18 · 211 阅读 · 0 评论 -
模型泛化能力(泛化误差+泛化误差上界)| 15mins 入门 | 《统计学习方法》学习笔记(六)
泛化能力一、 泛化误差学习方法的泛化能力(generalization ability):方法学习到的模型对未知数据的预测能力。评价标准:测试误差。但因为测试数据集是有限的,很有可能由此得到的评价结果是不可靠的。统计学习理论试图从理论上对学习方法的泛化能力进行分析。泛化误差定义:如果学习到的模型是f^\hat ff^,那么用这个模型对未知数据预测的误差即为泛化误差(generali...原创 2020-04-16 22:50:04 · 2637 阅读 · 1 评论 -
正则化与交叉验证|20mins 入门 | 《统计学习方法》学习笔记(五)
一、正则化正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。正则化一般有如下形式:minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)min_{f\in F}\frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i)) + \lambda J(f)minf∈FN1i=1∑NL(yi,f(xi))+λ...原创 2020-04-16 22:46:55 · 289 阅读 · 0 评论 -
模型评估与模型选择(训练误差和测试误差+过拟合)| 15mins 入门 | 《统计学习方法》学习笔记(四)
模型评估与模型选择当损失函数给定时,基于损失函数的模型的训练误差(training error)和模型的测试误差(test error)就自然成为学习方法评估的标准.训练误差的大小,对判定给定的问题是不是一个容易学习的问题是有意义的,但本质上不重要。测试误差反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念,显然,给定两种学习方法,测试误差小的方法具有更好的预测能力,是更有效的方法...原创 2020-04-16 22:42:28 · 4842 阅读 · 0 评论 -
损失函数与风险函数 + 经验风险最小化和结构风险最小化 | 15mins 入门 | 《统计学习方法》学习笔记(三)
(一)损失函数与风险函数损失函数(loss function):度量模型一次预测的好坏常用的损失函数:(1)0-1损失函数(0-1 loss function)L(Y,f(x))={1,Y≠f(X)0,Y=f(X)L(Y,f(x))=\begin{cases}1, Y \neq f(X) \\0, Y=f(X)\end{cases}L(Y,f(x))={1,Y=f(X)...原创 2020-04-16 22:35:43 · 842 阅读 · 0 评论 -
octave 代码按回车键不能显示下一部分|Mac OS 系统 | 吴恩达《机器学习》
解决方法:在每个exn.m文件里的Part 1上边 和 clear ; close all ;clc 下边之间增添代码如下:function pause()ANS = input(" ")end即可解决问题。原创 2020-04-03 23:16:53 · 205 阅读 · 0 评论 -
回归模型选择性能指标 | RMSE与MAE应用及其区别(L1-曼哈顿范数和L2-欧几里得范数)
机器学习回归问题常用的两种选择性能指标:均方根误差(Root Mean Square Error-RMSE):RMSE(X,h)=1m∑i=1m(h(x(i))−y(i))2RMSE(\bold X,h)=\sqrt{\frac{1}{m}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2}RMSE(X,h)=m1i=1∑m(h(x(i))−y(i))2均方根...原创 2020-04-01 00:42:20 · 4733 阅读 · 0 评论 -
监督学习基础概念及实现过程(联合概率分布+假设空间)|15mins入门|《统计学习方法》学习笔记(二)
监督学习任务:学习一个模型,使模型能够对任意给的输入,对其相应的输出做出一个好的预测(指某个系统的输入与输出,与学习的输入与输出不同)基本概念:输入空间(input space)与输出空间(out space):输入与输出所有可能取值的集合特点:可以是有限元素的集合,也可以是整个欧式空间;可以是相同空间或不同空间;通常输出空间远远小于输入空间输入、输出变量分别用大写字母XX...原创 2020-03-28 11:32:47 · 604 阅读 · 0 评论 -
机器学习基础词汇|小白10mins入门|西瓜书笔记
基本概念:以实物西瓜为例数据集(data set):(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),······样本(sample):(色泽=青绿;根蒂=蜷缩;敲声=浊响)特征(feature)or 属性(attribute):“色泽”,“根蒂”,“敲声”属性值(attribute value):“青绿”,“蜷缩”,“浊响”属性空间(...原创 2020-03-24 12:36:29 · 325 阅读 · 0 评论