
数据分析
「已注销」
,,
展开
-
小企业免费BI解决方案之在线---OLAP(Ubuntu系统下使用conda安装部署---superset)
小企业免费BI解决方案之在线—OLAP为了搭建一个测试版在线OLAP,我采用了以下方案:使用django快速搭建一个管理后台,使用系统默认admin,(第三方xadmin更优).使用python免费开源的发行版anaconda搭建jupyter,可以直接使用numpy,pandas,matplotlib进行数据清洗,抽取导出在线(现场展示更好)使用免费开源的supersetdj...原创 2019-07-13 22:04:33 · 594 阅读 · 0 评论 -
hadoop系统-资源管理系统YARN
资源管理系统YARN1YARN的概念和产生背景1.1什么是YARNYet Another Resource Negotiator, 另一种资源协调者通用资源管理系统为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处1.2通用资源管理系统Hadoop数据分布式存储(数据分块,冗余存储)当多个MapReduce任务要用到相同的h...原创 2019-09-02 22:52:51 · 457 阅读 · 0 评论 -
hadoop系统-分布式文件系统 HDFS
分布式文件系统 HDFS1HDFS设计思路2HDFS架构1个NameNode/NN(Master) 带 DataNode/DN(Slaves) (Master-Slave结构)1个文件会被拆分成多个BlockNameNode(NN)负责客户端请求的响应负责元数据(文件的名称、副本系数、Block存放的DN)的管理元数据 MetaData 描述数据的数据监控DataN...原创 2019-09-02 22:39:57 · 417 阅读 · 0 评论 -
大数据技术之Hadoop
大数据技术之Hadoop简介大数据的特点大数据应用场景大数据部门组织结构(重点)大数据部门组织结构,适用于大中型企业,如图所示。Hadoop框架1.1什么是hadoop1.2hadoop发展史1.3hadoop三大发行版Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版...原创 2019-09-02 22:11:30 · 289 阅读 · 0 评论 -
pandas系列总结案例
pandas系列总结案例1 需求现在我们有一组从2006年到2016年1000部最流行的电影数据数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data问题1:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?问题2:对于这一组电影数据,如果我们想知道rating,runtime的分布情况,应该如何呈现数据...原创 2019-08-15 20:46:27 · 710 阅读 · 0 评论 -
pandas-高级处理-分组与聚合
pandas-高级处理-分组与聚合目标应用groupby和聚合函数实现数据的分组与聚合分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况想一想其实刚才的交叉表与透视表也有分组的功能,所以算是分组的一种形式,只不过他们主要是计算次数或者计算比例!!看其中的效果:1 什么分组与聚合2 分组APIDataFrame.groupby(key...原创 2019-08-15 20:24:59 · 497 阅读 · 1 评论 -
pandas-高级处理-交叉表与透视表
pandas-高级处理-交叉表与透视表目标应用crosstab和pivot_table实现交叉表与透视表1 交叉表与透视表什么作用探究股票的涨跌与星期几有关?以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(...原创 2019-08-15 20:10:30 · 246 阅读 · 0 评论 -
pandas-高级处理-合并
pandas-高级处理-合并目标应用pd.concat实现数据的合并应用pd.merge实现数据的合并如果你的数据由多张表组成,那么有时候需要将不同的内容合并在一起分析1 pd.concat实现数据合并pd.concat([data1, data2], axis=1)按照行或列进行合并,axis=0为列索引,axis=1为行索引比如我们将刚才处理好的one-hot...原创 2019-08-15 19:52:04 · 274 阅读 · 0 评论 -
pandas-高级处理-数据离散化
pandas-高级处理-数据离散化1 为什么要离散化连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。2 什么是数据的离散化连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。离散化有很多种方法,这里使用一种最简单的方式去操作原始人的身高...原创 2019-08-15 19:30:53 · 1594 阅读 · 0 评论 -
pandas 高级处理-缺失值处理
pandas 高级处理-缺失值处理1 如何处理nan1获取缺失值的标记方式(NaN或者其他标记方式)2如果缺失值的标记方式是NaN判断数据中是否包含NaN:pd.isnull(df),pd.notnull(df)存在缺失值nan,并且是np.nan:1、删除存在缺失值的:dropna(axis=‘rows’)注:不会修改原数据,需要接受返回值...原创 2019-08-15 19:16:36 · 439 阅读 · 0 评论 -
pandas-文件读取与存储
pandas-文件读取与存储我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。1 CSV1.1 read_csvpan...原创 2019-08-15 18:56:39 · 836 阅读 · 0 评论 -
pandas绘图
pandas绘图1 pandas.DataFrame.plotDataFrame.plot(kind=‘line’)kind : str,需要绘制图形的种类‘line’ : line plot (default)‘bar’ : vertical bar plot‘barh’ : horizontal bar plot关于“barh”的解释:barth‘hist’ : hist...原创 2019-08-15 18:03:53 · 217 阅读 · 0 评论 -
pandas-DataFrame运算
DataFrame运算1 算术运算add(other)比如进行数学运算加上具体的一个数字data['open'].add(1)2018-02-27 24.532018-02-26 23.802018-02-23 23.882018-02-22 23.252018-02-14 22.49sub(other)2 逻辑运算2.1 逻辑...原创 2019-08-15 17:24:35 · 3451 阅读 · 0 评论 -
pandas 基本数据操作
pandas 基本数据操作为了更好的理解这些基本操作,我们将读取一个真实的股票数据。关于文件操作,后面在介绍,这里只先用一下API# 读取文件data = pd.read_csv("./data/stock_day.csv")# 删除一些列,让数据更简单些,再去做后面的操作data = data.drop(["ma5","ma10","ma20","v_ma5","v_ma10","...原创 2019-08-15 17:02:30 · 285 阅读 · 0 评论 -
Pandas数据结构
Pandas数据结构Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex(老版本中叫Panel )。其中Series是一维数据结构,DataFrame是二维的表格型数据结构,MultiIndex是三维的数据结构。1.SeriesSeries是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据和与...原创 2019-08-14 21:55:43 · 550 阅读 · 0 评论 -
Pandas介绍
1Pandas介绍2008年WesMcKinney开发出的库专门用于数据挖掘的开源python库以Numpy为基础,借力Numpy模块在计算方面性能高的优势基于matplotlib,能够简便的画图独特的数据结构2为什么使用PandasNumpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,那么pandas学习的目的在什么地方呢?增强图表可读...原创 2019-08-14 21:12:53 · 247 阅读 · 0 评论 -
python数学科学库之Matplotlib
Matplotlib可视化是在整个数据挖掘的关键辅助工具,可以清晰的理解数据,从而调整我们的分析方法。能将数据进行可视化,更直观的呈现使数据更加客观、更具说服力实现一个简单的Matplotlib画图# 1.创建画布plt.figure(figsize=(20,8), dpi=100)# 2.绘制图像x = [1,2,3]y = [4,5,6]plt.plot(x, y)...原创 2019-07-29 22:39:51 · 386 阅读 · 0 评论 -
hadoop系统-分布式计算框架MapReduce
分布式计算框架MapReduce1-MapReduce概念 和 MapReduce编程模型2-MapReduce原理详解单机程序计算流程输入数据—>读取数据—>处理数据—>写入数据—>输出数据Hadoop计算流程input data:输入数据InputFormat:对数据进行切分,格式化处理map:将前面切分的数据做map处理(将数据进行分类,输出...原创 2019-09-02 23:02:53 · 453 阅读 · 0 评论