绿岛小微米-优快云博客

转载中心极限定理以及其和大数定律的区别

一.中心极限定理下图形象的说明了中心极限定理当样本量N逐渐趋于无穷大时，N个抽样样本的均值的频数逐渐趋于正态分布，其对原总体的分布不做任何要求，意味着无论总体是什么分布，其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布，如上图，这个正态分布的u会越来越逼近总体均值，并且其方差满足a^2/n，a为总体的标准差，注意抽样样本要多次抽取，一个容量为N的抽样样本是无法构成分布的

2017-05-15 09:44:09 45836 1

关于随机森林的介绍，可见本博客中http://blog.youkuaiyun.com/u014755493/article/details/70168009首先提出两个指标，特征重要性和分类精确度。一.特征重要性对于随机森林中的一颗决策树，其训练数据集是使用Bagging方法得到的，即套袋法，还有大约1/3的袋外数据我们可以用它进行特征重要性的度量，假设针对某个特征X，我们利用套袋法建立了一颗决策

2017-05-14 14:36:33 22614 2

转载 zsore和经验法则(统计学原理)

正态分布：z score和经验法则其中以对称的μ为中心，±σ范围的概率是68.3%。也就是说z=（x-μ）/σ在范围(-1,1)内，概率为68.3%。也就是说z在范围(-1,1)内，概率为68.3%。所谓的经验法则（Empirical Rule），也成为68-95-99.7法则，即以μ为中心，落在μ±σ的概率为68%，落在μ±2σ的概率为95%，落在μ±3σ的概率为

2017-05-14 10:41:21 9945

转载常见损失函数

转自：http://blog.youkuaiyun.com/shenxiaoming77/article/details/51614601损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函

2017-05-08 09:21:36 8441

转载 17个新手常见的python运行错误

转自：https://www.oschina.net/question/89964_62779

2017-05-06 15:04:42 808

转载大数定律

什么是大数定律　　大数定律是指在随机试验中，每次出现的结果不同，但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。　　其原因是，在大量的观察试验中，个别的、偶然的因素影响而产生的差异将会相互抵消，从而使现象的必然规律性显示出来。例如，观察个别或少数家庭的婴儿出生情况，发现有的生男，有的生女，没有一定的规律性，但是通过大量的观察就会发现，男婴和女婴占婴儿总数的比重均

2017-05-03 10:40:49 9379

转载 SQL-内外连接

在查询多个表时，我们经常会用“连接查询”。连接是关系数据库模型的主要特点，也是它区别于其它类型数据库管理系统的一个标志。什么是连接查询呢？概念：根据两个表或多个表的列之间的关系，从这些表中查询数据。目的：实现多个表查询操作。知道了连接查询的概念之后，什么时候用连接查询呢？一般是用作关联两张或

2017-04-25 17:48:20 313

转载 python-pop,del,remove

remove#remove删除首个符合条件的元素，并不删除特定的索引。**n =[1,2,2,3,4,5]n.remove(3)print (n)**#输出 [1, 2, 2, 4, 5]123456123456pop#pop按照索引删除字符，返回值可以付给其他的变量，返回的是你弹出的那个数值。n =[1,2,2,3,4,5]a=n.pop(4)print (a)p

2017-04-25 14:30:42 759

转载机器学习算法优缺点总结

******决策树*******1.决策树优点1、决策树易于理解和解释，可以可视化分析，容易提取出规则。2、可以同时处理标称型和数值型数据。3、测试数据集时，运行速度比较快。4、决策树可以很好的扩展到大型数据库中，同时它的大小独立于数据库大小。2.决策树缺点1、对缺失数据处理比较困难。2、容易出现过拟合问题。3、忽略数据集中属

2017-04-24 17:16:00 1548

原创 python-列表分割

①list[a::b]从list列表下标a起取值，每次加b在取值，直到大于或等于list长度减1list1 = ['x',1,'y',2,'z',3]print list1[::2]输出：['x','y','z']list1 = ['x',1,'y',2,'z',3]print list1[1::2]输出：[1,2,3]②list[a:b]

2017-04-24 11:35:36 21523

转载 python-多种字典创建方式

1.创建空字典>>> dic = {}>>> type(dic)type 'dict'>1231232.直接赋值创建>>> dic = {'spam':1, 'egg':2, 'bar':3}>>> dic{'bar': 3, 'egg': 2, 'spam': 1}1231233.通过关键字dict和关键字参数创建>>> dic = dict(spam = 1

2017-04-24 11:26:15 594

转载机器学习&数据挖掘精华集锦

原文地址：http://www.cnblogs.com/tornadomeet/p/3395593.html朴素贝叶斯：　　有以下几个地方需要注意：　　1. 如果给出的特征向量长度可能不同，这是需要归一化为通长度的向量（这里以文本分类为例），比如说是句子单词的话，则长度为整个词汇量的长度，对应位置是该单词出现的次数。　　2. 计算公式如下：　　

2017-04-23 22:00:53 537

转载层次聚类算法

层次聚类的基本概念层次聚类方法是古老而且常用的聚类方法。层次聚类方法又有两种产生层次聚类的基本方法。凝聚的：该方法是自底向上的方法，初始每个对象看做一个簇，每一步合并最相近的簇，最终形成一个簇。分类的：该方法是自顶向下的方法，从包含的所有点的簇开始，每一步分裂一个簇，知道仅剩下单点的簇。2 簇之间的邻近性在凝聚的层次聚类方法中，需要定义簇之间的相近性。有许多凝聚层次的

2017-04-23 21:59:48 7381

转载常用SQL语句

一、简单查询语句1. 查看表结构SQL>DESC emp;2. 查询所有列SQL>SELECT * FROM emp;3. 查询指定列SQL>SELECT empmo, ename, mgr FROM emp;SQL>SELECT DISTINCT mgr FROM emp; 只显示结果不同的项4.

2017-04-23 19:44:07 297

转载 python-字典get方法

字典是Python中常用的数据结构，get()方法可用来判断字典中是否存在对应的key，但是当该key的对应value为0时，使用该方法来判断key是否存在容易出错。 get()方法使用如下：mydict.get(1)#假如字典中存在key为1的键值对，那么返回1对应的value值,如果不存在则返回Nonemydict.get(1, -1)#假如字典中存在key为1的键值对，那么返回

2017-04-20 14:34:23 1599

转载 python-enumerate枚举函数

enumerate 函数用于遍历序列中的元素以及它们的下标：>>> for i,j in enumerate(('a','b','c')): print i,j0 a1 b2 c>>> for i,j in enumerate([1,2,3]): print i,j0 11 22 3>>> for i,j in enumera

2017-04-20 14:25:59 6208

原创机器学习特征选择方法

有一句话这么说，特征决定上限，模型逼近上限。特征选择对后面的模型训练很重要，选择合适重要的特征，对问题求解尤为重要，下面介绍一些常见的特征选择方法。通常来说，从两个方面考虑来选择特征：特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择

2017-04-20 10:16:30 2191

转载标准化和归一化

*****************************归一化*******************************１）把数据变成(０，１)之间的小数２）把有量纲表达式变成无量纲表达式归一化算法有：1.线性转换　　 y=(x-MinValue)/(MaxValue-MinValue２.对数函数转换： y=log10(x)３.反余切函

2017-04-20 09:51:37 2199

原创二分类模型评价指标-AUC

***********************************AUC的含义和计算****************************************AUC针对二分类模型效果进行评价，二分类模型有时可能得到的是一个概率值，这个概率值表明为（0或1类）的可能性（不同于决策树分类，我们会直接得到一个确切分类），我们划定一个具体概率值p，大于则为正，小于则为负，然后使用acc或其他

2017-04-20 08:27:28 5257

转载 Bagging and Boosting 概念和区别

Bagging和Boosting 概念及区别　　Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping，即自助法：它是一种有放回的抽样方法（可能抽到重复的样本）。1、Bagging (bootstrap aggr

2017-04-18 10:29:05 2852

转载 FPgrowth

************************FPgrowth概述和apirior的比较********************************* 频繁项集挖掘算法用于挖掘经常一起出现的item集合（称为频繁项集），通过挖掘出这些频繁项集，当在一个事务中出现频繁项集的其中一个item，则可以把该频繁项集的其他item作为推荐。比如经典的购物篮分析中啤酒、尿布故事，啤酒

2017-04-18 10:05:41 1082

转载 LDA(生)

***********************示例**************************LDA要干的事情简单来说就是为一堆文档进行聚类（所以是非监督学习），一种topic就是一类，要聚成的topic数目是事先指定的。聚类的结果是一个概率，而不是布尔型的100%属于某个类。国外有个博客[1]上有一个清晰的例子，直接引用：Suppose you have the follow

2017-04-18 09:17:44 609

转载 EM算法(生)

em算法最大期望算法（Expectation Maximization Algorithm，又译期望最大化算法），是一种迭代算法，用于含有隐变量（latent variable）的概率参数模型的最大似然估计或极大后验概率估计EM算法在统计计算中，最大期望（EM）算法是在概率（probabilistic）模型中寻找参数最大似然估计或者最大后验估计的算法，

2017-04-17 10:47:27 564

转载关联规则算法-Aprior

数据挖掘是一个比较庞大的领域，它包括数据预处理（清洗去噪）、数据仓库、分类聚类、关联分析等。关联分析可以算是数据挖掘最贴近我们生活的一部分了，打开卓越亚马逊，当挑选一本《Android4高级编程》时，它会不失时机的列出你可能还会感兴趣的书籍，比如Android游戏开发、Cocos2d-x引擎等，让你的购物车又丰富了些，而钱包又空了些。关联分析，即从一个数据集中发现项之间的隐藏关系。本篇文章Ap

2017-04-17 09:41:52 21447

转载方差分析

方差分析(Analysis of Variance，简称ANOVA)，又称“变异数分析”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量.

2017-04-17 08:30:26 4162

转载推荐算法

推荐算法种类繁多，分支很多，创新性强，往往一个算法能分支创新出很多新的推荐算法，下图给出了几种有代表性的推荐算法，并在后面做详细解释。******************************协同过滤算法***********************************************1. 协同过滤的简介关于协同过滤的一个最经典

2017-04-16 09:35:57 734

转载 GBDT(生)

转自：http://blog.youkuaiyun.com/w28971023/article/details/8240756 GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被

2017-04-16 09:15:59 524

转载 python-zip使用

x = [1, 2, 3]y = [4, 5, 6]z = [7, 8, 9]xyz = zip(x, y, z)print xyz'''结果是:'''[(1, 4, 7), (2, 5, 8), (3, 6, 9)]#对应元素组成一个新的元组，元组构成列表#---------------------------------------##无参数时，x = zip()

2017-04-15 10:29:55 398

转载线性分类器和非线性分类器

***********************线性和非线性的区别********************************1. 线性linear，指量与量之间按比例、成直线的关系，在数学上可以理解为一阶导数为常数的函数；非线性non-linear则指不按比例、不成直线的关系，一阶导数不为常数。2. 线性的可以认为是1次曲线，比如y=ax+b ,即成一条直线

2017-04-15 09:23:22 19064

转载支持向量机SVM(生)

*********************支持向量机的通俗解释************************支持向量机是用来解决分类问题的。先考虑最简单的情况，豌豆和米粒，用晒子很快可以分开，小颗粒漏下去，大颗粒保留。用一个函数来表示就是当直径d大于某个值D，就判定为豌豆，小于某个值就是米粒。d>D, 豌豆d在数轴上就是在d左边就是米粒，右边就是绿豆，这是一维

2017-04-15 09:05:47 240

原创聚类算法-K-means

**********************K-means算法****************************步骤：1.从训练数据中随机选取k个初始点，作为k个初始簇的中心点2.计算每个点到中心点的欧式距离，将其归并到距离最近的簇中，直至所有点划分完成3.计算每个簇新的中心点4.如果相对于原来中心点没有变化或者变化数值小于给定阈值，则算法结束，获得k个簇，否则以计算出的

2017-04-14 14:40:08 7992

原创随机森林

*********************随机森林概述***************************在我们学习随机森林前，要对决策树有一定了解，尤其对其中决策树生成算法要做理解，详见博客。森林顾名思义，由很多棵树组成，这一颗颗树就是我们需要构造的决策树，由这些树组成的森林就是随机森林，当我们输入一个要预测分类的数据时，每个决策树都会接收数据并产生一个分类结果，然后采用‘投票机制

2017-04-14 08:49:32 1742

转载决策树-Cart生成和剪枝算法

***************CART算法概述********************** Cart算法类似于ID3算法，其将特征分类为按GINI系数，找到该特征下的一个最优节点进行分类，该特征被分为2个类别，比如一个类别中有{学生，老师，工人}，则选择分裂节点可能为学生，老师或工人，得到的结果就可能有[{学生}，{老师，工人}],[{老师},{学生，工人}],[{工人},{老师，学生}]，

2017-04-13 10:32:41 2806

转载 Logistic Regression

***********二项逻辑斯蒂分布******************二项逻辑斯蒂回归模型是一种分类模型，由条件概率分布P(Y|X)表示，形式为参数化的逻辑斯蒂分布（关于逻辑斯蒂分布以及概率分布的基础知识请看本文附录）。这里，随机变量X取值为实数，随机变量Y取值为1或0。二项逻辑斯蒂回归模型是如下的条件概率分布：对于给定的输入实例x，按照上式可以求得P(Y=1|x)和P(Y

2017-04-12 16:25:05 267

原创假设检验

原理：小概率原理，即认为如果一个事件概率很小，那么再一次试验中，这个事件是‘不会发生的’，或者说几乎不可能发生，再运用反证法上的思想，提出一个原假设和一个与其互斥的备择假设，我们假设原假设已经发生了，再去证明他是一个小概率事件，就能说明这个原假设是‘有问题的’，从而拒绝它，但也不能说就‘接受’备择假设，因为小概率事件也是有可能发生的。步骤：①先提出原假设和备择假设

2017-04-12 08:35:13 892

原创 L1，L2正则化

正则化引入的思想其实和奥卡姆剃刀原理很相像，奥卡姆剃刀原理：切勿浪费较多东西，去做，用较少的东西，同样可以做好的事情。正则化的目的：避免出现过拟合（over-fitting）经验风险最小化 + 正则化项 = 结构风险最小化经验风险最小化（ERM），是为了让拟合的误差足够小，即：对训练数据的预测误差很小。但是，我们学习得到的模型，当然是希望对未知数据有很好的预测能力（泛化能力

2017-04-11 14:24:10 807

原创 PCA降维的原理及步骤

*****降维的作用*****①数据在低维下更容易处理、更容易使用；②相关特征，特别是重要特征更能在数据中明确的显示出来；如果只有两维或者三维的话，更便于可视化展示；③去除数据噪声④降低算法开销*****降维通俗点的解释*****一些高维度的数据，比如淘宝交易数据，为便于解释降维作用，我们在这假设有下单数，付款数，商品类别，售价四个维度，数据量上百万条，对于下单

2017-04-10 16:16:34 55123 1

原创 python-关于函数间参数传递问题(注意理解，很容易混淆)

先看段代码，关于递归生成链表的问题，先自己判断会输出什么，再看结果class Node: def __init__(self): self.val = None self.next = Nonedef ccc(node,x,res): if res == x: return node = Node()

2017-04-10 11:36:33 2027

原创 python-关于del

python中del删除的变量而不是变量中的数据，再python中，变量就是一个引用，他指向一块内存区域，这个内存区域中存放的就是数据，我们使用del，删除的就是这个引用，并不会影响内存中的数据。li=[1,2,3,4,5] #列表本身不包含数据1,2,3,4,5，而是包含变量：li[0] li[1] li[2] li[3] li[4] first=li[0]

2017-04-10 11:32:59 500

转载插值法-解决数据预处理中的缺失

****拉格朗日插值法****在平面上有共n个点，现作一条函数使其图像经过这n个点。作法：作n个多项式。对于第j个多项式，及其角标集，构造是n-1次多项式，且满足并且。最后可得。形如上式的插值多项式称为拉格朗日（Lag

2017-04-09 17:37:46 4759

空空如也

空空如也