
数据分析
文章平均质量分 90
探索空间
阿呆阿瓜的日常
展开
-
数据分析的统计方法选择小结(变量之间的关联性分析)
数据分析的统计方法选择小结(变量之间的关联性分析)一、两个变量之间的关联性分析1.两个变量均为连续型变量1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析 2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析 3.一个变量为有序分转载 2017-09-13 17:16:28 · 11701 阅读 · 0 评论 -
hadoop、storm和spark的区别、比较
转载:http://blog.youkuaiyun.com/poisions/article/details/51120172一、hadoop、Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题:1.hadoop、Storm各是什么运算2.Storm为什么被称之为流式计算系统3.hadoop适合什么场景,什么情况下使用hadoop4.什么是吞吐量转载 2017-09-18 21:41:41 · 500 阅读 · 0 评论 -
Python绘图介绍
现如今大数据已人尽皆知,但在这个信息大爆炸的时代里,空有海量数据是无实际使用价值,更不要说帮助管理者进行业务决策。那么数据有什么价值呢?用什么样的手段才能把数据的价值直观而清晰的表达出来?答案是要提供像人眼一样的直觉的、交互的和反应灵敏的可视化环境。数据可视化将技术与艺术完美结合,借助图形化的手段,清晰有效地传达与沟通信息,直观、形象地显示海量的数据和信息,并进行交互处理。数据可视转载 2017-12-07 13:33:48 · 7946 阅读 · 2 评论 -
用Python实现机器学习算法
用Python实现出来的机器学习算法都是什么样子呢?营长刚好在 GitHub 上发现了东南大学研究生“Lawlite”的一个项目——机器学习算法的Python实现,下面从线性回归到反向传播算法、从SVM到K-means聚类算法,咱们一一来分析其中的Python代码。目录一、线性回归1、代价函数2、梯度下降算法3、均值归一化转载 2017-12-07 13:40:11 · 2122 阅读 · 0 评论 -
Python数据分析与实战挖掘
《Python数据分析与实战挖掘》 张良均基础篇书推荐:《用python做科学计算》扩展库 简介Numpy数组支持,以及相应的高效处理函数Scipy矩阵支持,以及相应的矩阵数值计算模块Matplotlib强大的数据可视化工具、作图库Pandas强大、灵活的数据分析和探索工具StatsModels 统计建模和计量经济学,包括描述统计转载 2017-12-08 09:13:32 · 1873 阅读 · 1 评论 -
过拟合(原因、解决方案、原理)
版权声明:如需转载,请注明出处http://blog.youkuaiyun.com/a8198252941.定义标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 —-《Machine Learning》Tom M.Mitchell2.出现过拟合的一些原因(原创 2018-01-22 15:26:44 · 1433 阅读 · 0 评论 -
数学优化入门:凸优化
1、前言凸优化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。虽然条件苛刻,但应用广泛,具有重要价值,主要体现在:凸优化本身具有很好的性质 一来,凸问题的局部最优解就是全局最优解。二来,凸优化理论中的Lagrange对偶,为凸优化算法的最优性与有效性提供了保证。近些年来关于凸问题的研究非常透彻,以至于只要把某一问题抽象为凸问题,就可以近似认为这个问题已经解决了转载 2018-01-22 15:37:00 · 1661 阅读 · 0 评论 -
利用 Python 练习数据挖掘
第一节介绍数据挖掘是一个隐式提取以前未知的潜在有用的数据信息提取方式。它使用广泛,并且是众多应用的技术基础。本文介绍那些使用Python数据挖掘实践用于发现和描述结构模式数据的工具。近些年来,Python在开发以数据为中心的应用中被用的越来越多。感谢大型科学计算社区的支持以及大大丰富的数据分析函数库。尤其是,我们可以看到如何:• 导入和可视化数据• 数据分类• 使用回归分析转载 2017-12-29 16:03:10 · 1908 阅读 · 0 评论 -
python中常用的九种预处理方法分享
这篇文章给大家分享了python中常用的九种预处理方法,对大家学习或使用python具有一定的参考价值,有需要的朋友们可以一起来看看本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各转载 2018-01-09 09:39:11 · 583 阅读 · 0 评论 -
Hadoop入门
学习Hadoop,从本教程开始。http://hadoop.apache.org/docs/r1.0.4/cn/index.html原创 2017-09-11 22:09:01 · 228 阅读 · 0 评论 -
数据挖掘之特征选择
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自转载 2017-12-22 14:27:55 · 1626 阅读 · 1 评论 -
Matplolib教程及查询
Matplotlib这是一个分为四部分的Matplolib教程。1st 部分:第一部分介绍了Matplotlib基本功能,基本figure类型。Simple Plotting exampleIn [113]:%matplotlib inline import matplotlib.pyplot as plt #i转载 2017-12-08 13:58:17 · 835 阅读 · 0 评论 -
使用Python一步一步地来进行数据分析
你已经决定来学习Python,但是你之前没有编程经验。因此,你常常对从哪儿着手而感到困惑,这么多Python的知识需要去学习。以下这些是那些开始使用Python数据分析的初学者的普遍遇到的问题:需要多久来学习Python?我需要学习Python到什么程度才能来进行数据分析呢?学习Python最好的书或者课程有哪些呢?为了处理数据集,我应该成为一个转载 2017-12-08 14:04:18 · 588 阅读 · 0 评论 -
python pandas (ix & iloc &loc) 的区别
loc——通过行标签索引行数据 iloc——通过行号索引行数据 ix——通过行标签或者行号索引行数据(基于loc和iloc 的混合) 同理,索引列数据也是如此!举例说明: 1、分别使用loc、iloc、ix 索引第一行的数据: (1)locimport pandas as pddata=[[1,2,3],[4,5,6]]index=['a','b']#行号colu转载 2017-12-20 11:05:47 · 687 阅读 · 0 评论 -
卡方检验用于特征提取
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类转载 2017-12-22 10:18:05 · 825 阅读 · 0 评论 -
统计相关系数(2)——Spearman Rank(斯皮尔曼等级)相关系数及MATLAB实现
转载:http://blog.youkuaiyun.com/wsywl/article/details/5859751Spearman Rank(斯皮尔曼等级)相关系数 1、简介在统计学中,斯皮尔曼等级相关系数以Charles Spearman命名,并经常用希腊字母ρ(rho)表示其值。斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。如转载 2017-09-13 19:49:07 · 5955 阅读 · 0 评论 -
信息增益相关介绍(熵、信息增益、特征)
对于取值多的属性,尤其一些连续型数值,比如两条地理数据的距离属性,这个单独的属性就可以划分所有的样本,使得所有分支下的样本集合都是“纯的”(最极端的情况是每个叶子节点只有一个样本)。一个属性的信息增益越大,表明属性对样本的熵减少的能力更强,这个属性使得数据由不确定性变成确定性的能力越强。所以如果是取值更多的属性,更容易使得数据更“纯”(尤其是连续型数值),其信息增益更大,决策树会首先挑选这转载 2017-12-22 10:58:28 · 3815 阅读 · 0 评论 -
特征选择的策略--数据相关性(皮尔逊系数)与gini或者信息熵的的结合
首先特征选择在实际的数据挖掘项目中非常重要,从海量维度的特征中选取出表征明显的特征显得非常的重要。特征选择主要可以从数据相关性角度和信息增益的角度来考虑。数据相关性判断:皮尔逊系数当相关系数为0时,X和Y两变量无关系。 当X的值增大,Y也增大,正相关关系,相关系数在0.00与1.00之间 当X的值减小,Y也减小,正相关关系,相关系转载 2017-12-22 11:27:20 · 4413 阅读 · 0 评论 -
梯度下降法介绍及python实现
梯度下降(Gradient Descent)算法是机器学习中使用非常广泛的优化算法。当前流行的机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。本文主要以线性回归算法损失函数求极小值来说明如何使用梯度下降算法并给出python实现。若有不正确的地方,希望读者能指出。 梯度下降梯度下降原理:将函数比作一座山,我们站在某个山坡上,往四周看,从哪个方向向下走一小步,能够下降的最快。在线性回归算转载 2018-01-19 10:57:00 · 883 阅读 · 0 评论