
机器学习
文章平均质量分 75
知道不_zkl
这个作者很懒,什么都没留下…
展开
-
Box-cox变换
Box-Cox变换 Box和Cox于1964年提出了一种基于极大似然法的幂转换模型。Box-Cox幂分布族是一种十分有用的连续分布族。其转换模型为 y(λ)={yλ−1λ,λ≠0lny,λ=0(1)(1)y(λ)={yλ−1λ,λ≠0lny,λ=0y^{(\lambda)} = \begin {cases} \frac {y^\lambda-1} {\lambda},\lambda...原创 2018-05-17 14:10:24 · 4230 阅读 · 0 评论 -
AIC信息
AIC信息 假设fff为可以反映真实情况的理想模型,ggg为用来近似真实情况的模型。两个模型见的Kullback−LeiblerKullback−LeiblerKullback-Leibler信息距离(K−LK−LK-L距离)是指有模型ggg来近似fff所带来的信息损失。简称ggg到fff的距离,K−LK−LK-L距离由式(1)(1)(1)表示。 I(f,g)=∫f(x)log⟮f(...原创 2018-05-15 12:42:06 · 1333 阅读 · 0 评论 -
BIC信息
BIC信息 1,AICAICAIC 信息准则 1971年,日本统计学家H.AkaikeH.AkaikeH.Akaike在研究信息论特别是在解决时间序列定阶问题中提出了赤池信息准则(Akaike′sInformationCriterionAIC),(Akaike′sInformationCriterionAIC),(Akaike's Information Criterion AIC),...原创 2018-05-15 12:42:23 · 2377 阅读 · 0 评论 -
Cook距离
Cook距离 对于线性模型 Y=Xβ+ϵ.E(ϵ)=0,Cov(ϵ)=σ2In(1)(1)Y=Xβ+ϵ.E(ϵ)=0,Cov(ϵ)=σ2InY = X\beta+\epsilon.E(\epsilon)=0,Cov(\epsilon)=\sigma^2I_n \tag1 ββ\beta的最小二乘估计为β^=(XTX)−1XTYβ^=(XTX)−1XTY\hat \beta = (X^...原创 2018-05-15 12:42:47 · 11037 阅读 · 1 评论 -
Q-Q图
Q-Q图 统计学里的Q-Q图(Q代表分位数)是一个概率图,用图形的方式比较两个概率分布,把他们的两个分位数放在一起比较。首先选好分位数间隔。图上的点(x,y)反映出一个第二分布(y坐标)的分位数和与之对应的第一分布(x坐标)的相同分位数。因此,这条线是一条以分位数间隔为参数的曲线。 如果两个分布相似,则该Q-Q图趋近于落在y=x线上。如果两分布线性相关,则点在Q-Q...原创 2018-05-15 12:45:44 · 2973 阅读 · 1 评论 -
集成学习与Adaboost算法
本文简要介绍了集成学习,说明了Boosting和Bagging的主要特点。接着,基于周志华的《机器学习》中关于Adaboost算法介绍,详细推导了Adaboost算法,并给出了关键步骤的解释,更方便初学者的理解。集成学习 集成学习通过构建并结合多个学习器来完成学习任务,有是也称为多分类器系统,基于委员会的学习等。 上图显示出集成学习的一般结构:先产生一组“个体学习器”,再用某种策...原创 2018-05-21 22:41:38 · 500 阅读 · 0 评论 -
基于sklearn的岭回归实现及效果分析
岭回归也是一种用于回归的线性模型,预测公式与最小二乘法相同,但在岭回归中,对系数w的选择不仅要在训练数据上得到好的预测结果,而且还要拟合附加约束。我们还希望系数尽量小。换句话说,w的所有元素都应接近于0.直观上来看,这意味着每个特征对输出的影响尽可能小(即斜率很小),同时仍然给出很好的预测结果。这种约束就是所谓正则化的一个例子。正则化是指对模型做显式约束,以避免过拟合。岭回归用到的这种被称为L2...原创 2018-05-22 20:11:16 · 3254 阅读 · 0 评论 -
sklearn 中的RidgeCV函数
语法: _BaseRidgeCV(alphas=(0.1, 1.0, 10.0), fit_intercept=True, normalize=False, scoring=None, cv=None, gcv_mode=None, store_cv_values=False)类型: sklearn.linear_model.ridge模块中出现的类。 内置交叉验证的岭回归,...原创 2018-05-22 20:12:03 · 13912 阅读 · 1 评论 -
xgboost理论推导(一)
本文是在学习陈天奇博士的xgboost论文后总结而来,并对相关知识点和公式进行了详细说明,推导和理解。内容安排如下: 顺序 内容 说明 1 树的复杂度衡量 因为xgboost的损失函数包含了正则项,而正则项则是依据树的复杂度进行的,所以先介绍书的复杂度 2 xgboost的损失函数 中间详细介绍了公式的推导过程,并对每个公式进行了详细介绍,方...原创 2018-05-23 18:57:39 · 543 阅读 · 0 评论 -
基于sklearn的Lasso实现与效果分析
Lasso回归(也称套索回归),是一种正则化的线性回归。与岭回归相同,使用Lasso也是约束系数,使其接近于0,但使用的是L1正则化。lasso惩罚系数是向量的L1范数,换句话说,系数的绝对值之和。L1正则化的结果是,使用lasso时,某些系数刚好为0。这说明某些特征被模型完全忽略。这可以看做是一种自动化的特征选择。代码实现 同样,将lasso应用在波士顿房价预测上面。完整代码如下:...原创 2018-05-23 19:54:09 · 9374 阅读 · 2 评论 -
sklearn中的Lasso函数
语法: Lasso(alpha=1.0, fit_intercept=True, normalize=False, precompute=False, copy_X=True, max_iter=1000, tol=1e-4, warm_start=False, positive=False, random_state=None, selection=’cyclic’)类型: 在s...原创 2018-05-23 20:31:00 · 10442 阅读 · 2 评论 -
numpy用于数组的文件输入输出
numpy能否读写磁盘上的文本数据或二进制数据。np.save和np.loadnp.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中的。In[1]:import numpy as npIn[2]:arr = np.arange(10)In[3]:arrOut[3]: array([0, 1, 2...原创 2018-05-29 09:55:08 · 1228 阅读 · 0 评论 -
真正理解拉格朗日乘子法和KKT条件
转载自:https://www.cnblogs.com/xinchen1111/p/8804858.html 这篇博文中直观上讲解了拉格朗日乘子法和 KKT 条件,对偶问题等内容。 首先从无约束的优化问题讲起,一般就是要使一个表达式取到最小值: minf(x)minf(x)min f(x) 如果问题是 maxf(x)maxf(x)maxf(x) 也可以通过取反转化为求最小值min−f...转载 2018-05-29 11:08:13 · 69170 阅读 · 23 评论 -
sklearn 中的train_test_split函数
语法: train_test_split(*arrays, **options)类型: sklearn.model_selection._split 中的函数,分离数组或者矩阵到随机的训练和测试子集。 快捷实用程序,该程序封装输入验证,该程序调用一个单个的分离操作(可选择二选抽样) 在用户指南中读取更多输入参数参数名:*arrays类型:seque...原创 2018-05-25 11:09:26 · 3994 阅读 · 0 评论 -
sklearn中的弹性网函数
语法: ElasticNet(self, alpha=1.0, l1_ratio=0.5, fit_intercept=True, normalize=False, precompute=False, max_iter=1000, copy_X=True, tol=1e-4, warm_start=False, positive=False, random_state=None, select...原创 2018-05-25 10:42:53 · 3062 阅读 · 0 评论 -
skimage imsave函数和imshow函数
以下信息翻译自python帮助文档imshow函数语法: imshow(arr, plugin=None, **plugin_args)功能: skimage.io._io模块中的函数,显示一个图像参数:参数名:arr类型: ndarray or str,多维数组或者字符串说明:图像数据或者图像文件名字参数名:plugin类型:str...原创 2018-05-17 16:45:47 · 6794 阅读 · 0 评论 -
单因素方差分析
数学模型 把水平AiAiA_i下的试验结果xi1,xi2,⋯,xinixi1,xi2,⋯,xinix_{i1},x_{i2},\cdots,x_{in_i}看成来自第iii个正态总体Xi∼N(μi,σ2)Xi∼N(μi,σ2)X_i \sim N(\mu_i,\sigma^2)的样本观察值,其中,μμ\mu,σ2σ2\sigma^2未知,并且每个总体XiXiX_i都相互独立,考虑线性模型...原创 2018-05-18 19:15:23 · 3678 阅读 · 0 评论 -
矩阵求导
前提:本文中,XXX为向量,则XXX为列向量,XTXTX^T为行向量,xxx为标量,即一个数字。布局 布局简单的理解就是分子yyy,分母xxx是行向量还是列向量。分子布局:分子为列向量或者分母为行向量,分子为y或者分母为xT分母布局:分子为行向量或者分母为列向量,分子为yT或者分母为x 下面是维基百科中的例子:分子布局例子1:标量/向量 ∂y∂X=[∂y∂x1...原创 2018-05-18 22:53:30 · 216 阅读 · 0 评论 -
残差图
残差图 残差图是以某种残差为纵坐标,以其他适宜的两位横坐标的散点图。这里横坐标有多种选择,最常见的选择是:因素的拟合值某变量的观察值在因变量的观察值Y1,Y2,⋯,YnY1,Y2,⋯,YnY_1,Y_2,\cdots,Y_n为一时间序列时 横坐标可取为观察时间或观察序号。通过对残差及残差图的分析,以考察模型假设的合理性的方法,称为残差分析。这些方法比较直观,应用上效果也好。目前...原创 2018-05-19 10:53:55 · 23938 阅读 · 0 评论 -
回归分析
回归分析1,什么是回归分析 在许多实际问题中,变量之间存在相互关系,这种关系需要通过实验或观测来获取数据,通常用统计的方法去寻找它们之间的关系,这种关系反映了变量之间的统计规律,研究这类统计规律的方法之一就是回归分析。2,回归分析实质 在回归分析中,把变量分为两类。一类是因变量或者响应变量,它们通常是实际问题中所关系的指标,通常用YYY来表示,而影响因变量取值的另一类变量称为自...原创 2018-05-14 10:27:17 · 369 阅读 · 0 评论 -
集成学习
集成学习(ensemble learning)是一种新的学习策略,对于一个复杂的分类问题,通过训练多个分类器,利用这些分类器来解决同一个问题。在集成学习中,通过学习多个分类器,通过结合这些分类器对于同一个样本的预测结果,给出最终的预测结果。集成学习中的典型方法 在集成学习方法中,其泛化能力比单个学习算法的泛化能力强很多。在集成学习方法中,根据多个分类器学习方式的不用,可以分为:baggi...原创 2018-05-20 13:13:42 · 603 阅读 · 0 评论 -
熵、信息增益、信息增益率与基尼指数
本文主要介绍了熵,信息增益,信息增益率和基尼指数的基本概念,并使用数据样例进行了计算。数据样例 名称 是否用鳃呼吸 有无鱼鳍 是否为鱼 鲨鱼 是 有 是 鲫鱼 是 有 是 河蚌 是 无 否 鲸 否 有 否 海豚 否 有 否熵 熵是度量样本集合纯度最常用的...原创 2018-05-20 19:32:44 · 4373 阅读 · 2 评论 -
一元线性回归模型
前言 本文主要介绍了一元线性回归模型的数学模型,回归参数估计,三种显著性检验(FFF检验,R2R2R^2判定系数,估计标准差),并给出了使用最小二乘法推导回归参数的详细过程。1, 数学模型 假设 Y=a+bX+ϵY=a+bX+ϵY=a+bX+\epsilon ,其中:XXX是可控变量;YYY是随机变量a+bXa+bXa+bX 是YYY随着XXX变化而线性变化的部分;ϵϵ...原创 2018-05-14 15:54:21 · 3558 阅读 · 0 评论 -
sklearn pipeline函数
定义: Pipeline(…)类型: sklearn.pipeline模块中的函数 带有最终评估器的转移管道。连续运用一系列的转换操作和一个最终的评估器。管道的中间操作必须是’transform’,也就是说,它们必须实现fit和transform方法。最后的估计器只需要实现fit方法。管道中的转换器可以使用内存参数进行缓存。 管道的目的是组装几个步骤,这些步骤可以设置不同的...原创 2018-05-21 10:52:47 · 3350 阅读 · 0 评论 -
岭回归,Lasso回归和弹性网回归理论及特点
主要介绍了线性回归模型,岭回归,lasso回归和弹性网的基础理论。线性回归模型 线性回归是回归分析中最基本的一类回归问题,对于一般的线性回归模型来说,假设预测变量的个数为ppp,样本容量为NNN,则: {yi=β0+β1xi1+⋯+βpxip+ϵiϵi∼N(0,σ2),i=1,2,3,⋯,N(1)(1){yi=β0+β1xi1+⋯+βpxip+ϵiϵi∼N(0,σ2),i=1,2,3,...原创 2018-05-25 10:09:40 · 16811 阅读 · 0 评论 -
p值检验法
1,假设检验 统计推断就是由样本来推断总体,它包括两个基本问题:统计估计和假设检验。这里主要讨论假设检验的问题。有关总体分布的未知参数或位置分布形式的种种论断叫做统计假设。人们要根据样本所提供的信息来对所考虑的假设做出接受或者拒绝的决策,假设检验就是做出这一决策的过程。 真实情况 接受H0H0H_0 拒绝H0H0H_0 H0H0H_0为真 正确 犯第一类错...原创 2018-05-14 19:53:25 · 19935 阅读 · 3 评论 -
scikit-learn中的SelectKBes函数
语法: SelectKBest(…)类型: sklearn.feature_selection.univariate_selection模块中的函数,根据k最高分数选择特征。在用户指导中读取更多。输入参数;参数名:score_func类型:callable说明:函数使用两个数组x和y,并返回一对数组(分数,p值)或者一个带有分数的驻足,默认是 f_classi...原创 2018-05-21 14:49:50 · 1321 阅读 · 1 评论 -
Python中的统计变量
描述性统计分析是借助图表或者总结性的数值来描述数据的统计手段,达到了解数据的目的。本文总结了python中,常见统计量的定义和实现。在实际中,大部分统计量在numpy包中有定义,小部分变量在scipy包中有定义。在本文中,data代表要分析的数据。且首先运行一下代码import numpy as npimport scipy.stats as ss1,最常见的统计量 名...原创 2018-06-07 20:58:20 · 1872 阅读 · 0 评论