- 博客(32)
- 收藏
- 关注
翻译 Encoding编码
编码编码或者连续化处理是把分类变量转火车数值副本的过程。譬如,处理性别时,男的定为1,女的定为0.分类变量在许多模型方法中(譬如,线性回归,SVM,神经网络)必须进行编码。两种主要的编码类型是二进制编码和基于目标的编码。二进制编码(Binary Encoding)通过用0或者1来表示每个类别不存在或者存在是分类变量量化的一个方法。如果分类变量有k个分类,那么我们需要创建k个二进制变量(理论上来说,...
2018-02-09 18:33:21
10259
转载 L2正则化方法
在机器学习中,无论是分类还是回归,都可能存在由于特征过多而导致的过拟合问题。当然解决的办法有 (1)减少特征,留取最重要的特征。 (2)惩罚不重要的特征的权重。 但是通常情况下,我们不知道应该惩罚哪些特征的权重取值。通过正则化方法可以防止过拟合,提高泛化能力。 先来看看L2正则化方法。对于之前梯度下降讲到的损失函数来说,在代价函数后面加
2018-01-29 20:41:41
2381
原创 Nmpuy_Reshape的-1参数
Numpy的reshape属性应该能保证新数组的元素数量与原数组元素数量相等。一个参数为-1时,那么reshape会根据另一个参数的值计算出新数组的行与列。如原数组是3*4的,则如果reshape(-1,1),则新数组变成12*1的。如果reshape(2,-1),则新数组变成2*6的。下面来举几个例子来理解一下:>>> z = np.array([[1, 2, 3,
2018-01-29 17:02:25
524
转载 机器学习中正则化项L1和L2的直观理解
正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2
2018-01-24 09:13:19
935
翻译 理解'*','*args','**','**kwargs'
原文Understanding ‘*’, ‘args’,’*‘and’**kwargs’让我们通过以下5步来理解: 1. 通过一个函数调用来理解’*’的作用 2. 通过一个函数的定义来理解’*args’的含义 3. 通过一个函数的调用来理解’**’的作用 4. 通过一个函数的定义来解’**kwargs’的含义 5. 通过一个应用实例来说明’args’,’kwar
2018-01-23 15:26:40
426
1
转载 Numpy_协方差与相关系数
协方差与相关系数协方差与相关系数协方差相关系数1.协方差如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。可以通俗的理解为:两个变量
2018-01-19 21:46:55
5700
转载 混淆矩阵(Confusion Matrix)分析
ContentConfusionMatrixExampleTalbe ofconfusionPreference Confusion Matrix在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matchin
2018-01-19 21:45:25
8584
原创 Seaborn_一般绘图函数factorplot 和 FacetGrid
# (1)根据2个维度变量绘图,画出model_year和mpg的关系图sns.factorplot(data=df, x="model_year", y="mpg")#通过添加kind参数,折线图改柱形图sns.factorplot(data=df, x="model_year", y="mpg",kind="bar")#(2)可以按照第3个维度绘制不
2018-01-15 15:01:46
19628
转载 numpy.ravel()和numpy.flatten()的区别
两者所要实现的功能是一致的(将多维数组降位一维),两者的区别在于返回拷贝(copy)还是返回视图(view),numpy.flatten()返回一份拷贝,对拷贝所做的修改不会影响(reflects)原始矩阵,而numpy.ravel()返回的是视图(view,也颇有几分C/C++引用reference的意味),会影响(reflects)原始矩阵。1. 两者的功能>>> x = np.a
2018-01-12 18:37:25
642
转载 预处理数据的方法总结(使用sklearn-preprocessing)
预处理数1. 标准化:去均值,方差规模化Standardization标准化:将特征数据的分布调整成标准正太分布,也叫高斯分布,也就是使得数据的均值维0,方差为1.标准化的原因在于如果有些特征的方差过大,则会主导目标函数从而使参数估计器无法正确地去学习其他特征。标准化的过程为两步:去均值的中心化(均值变为0);方差的规模化(方差变为1)。在sklearn.p
2018-01-10 19:44:13
731
转载 scikit-learn中fit_transform()与transform()的区别
scikit-learn中fit_transform()与transform()到底有什么区别,能不能混用?二者的功能都是对数据进行某种统一处理(比如标准化~N(0,1),将数据缩放(映射)到某个固定区间,归一化,正则化等)fit_transform(partData)对部分数据先拟合fit,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的),然后对该par
2018-01-10 19:41:43
1794
转载 Kaggle机器学习之模型融合(stacking)心得
原文见:https://www.leiphone.com/news/201709/zYIOJqMzR0mJARzj.html
2018-01-05 14:14:42
1885
转载 集成学习调优(RM+BGBoost)理论
原文见 http://www.cnblogs.com/jasonfreak/p/5657196.html
2017-12-30 20:33:31
273
转载 Bagging和随机森林
原文地址http://blog.youkuaiyun.com/flowerboya/article/details/50916653
2017-12-30 14:36:01
340
转载 XGBoost 与 Boosted Tree
注意在用泰勒公式展开的时候有点复杂:展开的函数是l()函数,并不包含后面的惩罚项和常数,l函数里的y(hat)是自变量x,而ft
2017-12-29 19:49:38
590
转载 SVD的数学原理
主要介绍SVD的原理及与PCA的关系原文见:https://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html
2017-12-27 22:25:11
675
转载 PCA的数学原理
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把文章
2017-12-26 21:50:06
308
转载 牛顿法与拟牛顿法
作者: peghoty 出处: http://blog.youkuaiyun.com/itplus/article/details/21896453补充:牛顿下降法优点:对于正定二次函数,迭代一次,就可以得到极小值点。下降的目的性更强。缺点:要求二阶可微分;收敛性对初始点的选取依赖性很大;每次迭代都要计算Hessian矩阵,计算量
2017-12-15 15:01:29
410
转载 最大熵模型的特征函数及约束条件
作者:星环科技链接:https://zhuanlan.zhihu.com/p/29978153来源:知乎熵熵(entropy)是热力学中的概念,由香浓引入到信息论中。在信息论和概率统计中,熵用来表示随机变量不确定性的度量。H(x)依赖于X的分布,而与X的具体值无关。H(X)越大,表示X的不确定性越大。条件熵3.最大熵模型的定义
2017-12-15 13:34:14
7151
8
转载 各种熵之间的关系
各种熵之间的关系H(X, Y) = H(x) U H(Y); —— 联合熵的定义:两个随机变量X,Y的联合分布,可以形成联合熵,是并集H(X|Y) = H(X, Y) - H(Y); H(Y|X) = H(X, Y) - H(X) —— 条件熵的定义H(X|Y) = H(X) - I(X, Y); H(Y|X) = H(Y) - I(X, Y)I(X, Y) = H(X) - H(
2017-12-12 23:01:20
3241
转载 互信息
作者:maple链接:https://www.zhihu.com/question/24059517/answer/37430101来源:知乎互信息指的是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定另一个随机变量没有影响,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随
2017-12-12 22:53:47
2142
转载 相对熵
作者:Noriko Oshima链接:https://www.zhihu.com/question/41252833/answer/108777563来源:知乎熵的本质是香农信息量()的期望。现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为:H(p)=。如果使用错误分布q来表
2017-12-12 22:48:26
1101
转载 信息熵
作者:项王链接:https://www.zhihu.com/question/30828247/answer/61924989来源:知乎以下用I(a)表示a事件发生的信息量有两个事件a,b,如果其中一条有更小的概率发生,那么我们认为它发生会传递更大的信息量即:1、 0I(b)如果一个事件a发生概率趋于0,那么我们认为它发生时有趋于无穷大的信息量,因为这个消息会刷新世
2017-12-12 21:43:53
977
转载 条件熵
作者:忆臻链接:https://zhuanlan.zhihu.com/p/26551798来源:知乎我们首先知道信息熵是考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。公式如下:我们的条件熵的定义是:定义为X给定条件下,Y的条件概率分布的熵对X的数学期望这个还是比较抽象,下面我们解释一下:设有随机变量(X,Y),其联合概率分布为
2017-12-12 20:54:26
3194
转载 关联分析——FP-growth算法
使用FP-growth算法来高效发现频繁项集FP-growth算法基于Apriori构建,但采用了高级的数据结构减少扫描次数,大大加快了算法速度。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此FP-growth算法的速度要比Apriori算法快。FP-growth算法发现频繁项集的基本过程如下:
2017-08-12 19:55:14
19835
2
转载 关联分析—Apriori算法
从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索方法并不能解决这个问题,所以需要用更智能的方法在合理的时间范围内找到频繁项集。本文分别介绍如何使用Apriori算法和FP-growth算法来解决
2017-08-12 19:52:10
1056
转载 K-means算法
聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。比如上面的星星,聚类后结果是一个个星团,星团里面的点相互距离比较近,星团间的星星距离就比较远了。 在聚类问题中,给我们
2017-08-12 19:49:35
678
转载 神经网络基础
概述以监督学习为例,假设我们有训练样本集 ,那么神经网络算法能够提供一种复杂且非线性的假设模型 ,它具有参数 ,可以以此参数来拟合我们的数据。为了描述神经网络,我们先从最简单的神经网络讲起,这个神经网络仅由一个“神经元”构成,以下即是这个“神经元”的图示:这个“神经元”是一个以 及截距 为输入值的运算单元,其输出为 ,其中函数 被称为“激活
2017-08-04 09:07:48
438
转载 超平面
什么是超平面我们最常见的平面概念是在三维空间中定义的:Ax + By + Cz + D = 0它由两个性质定义:方程是线性的: 是空间点的各分量的线性组合方程数量为1若抛却维度等于3的限制, 就得到了超平面的定义. 方程数量为1, 它的本质其实是自由度比空间维度d小一. 自由度的概念可以简单的理解为至少要给定多少个分量的值才能确定一个点. 例如, 三维空间里的(超)平面只要给定了(x,y,
2017-08-04 07:23:16
678
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人