- 博客(12)
- 资源 (3)
- 收藏
- 关注
转载 pandas.read_csv参数详解
pandas.read_csv参数整理 读取CSV(逗号分割)文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html参数:filepath_or_buffer : str,pathlib。str, pathlib.Path, py._p
2017-07-20 09:47:17
556
原创 深入浅出-统计学(2)
第二章:集中趋势的度量术语:1.均值:将所有数字加起来,然后除以数字个数。但是这不等于平均数,因为平均数有很多种。 Σx=x1+x2+…+xn μ=Σx/n μ=Σfx/Σf(每个数字乘以其频数)/(频数和) 异常值:与其他数据格格不入的极高或极低的数值 偏斜数据:当异常值将数据向左或向右“拉”时,即产生偏斜数据2.中位数:处于中间,即
2017-03-16 10:20:16
905
原创 深入浅出-统计学(1)
最近开始学习《深入浅出-统计学》,在此记录一下学习笔记。第一章:信息图形化术语:1.频数:表示在一个特定组,或者说在一个特定区间内的统计对象的数目,类似于数数2.类别数据(定性数据)、数值型数据(定量数据)3.累积频数:累加到某个数值为止的总频数,基本上是所有频数的累积总和。要点:频数是一种统计方法,用于描述一个类别中有多少个项。饼图能很好的
2017-03-15 10:15:29
1721
原创 Superset离线安装
安装前准备下载superset安装supersetSuperset官方文档给出的安装方法为在线安装,但是在实际环境中一般很难具备这样的条件,故在此分享一下我在linux环境下离线安装superset的步骤安装前准备 参照官方文档准备环境,可参考我的另一篇博文:Superset 安装和配置中第一、二步,分别准备基础环境和Virtualenv、setup tools、pip等参照上述文档,执行
2017-01-22 12:00:43
5987
2
翻译 Hive数据类型
Hive数据类型数值型日期型字符型其他复杂类型Hive数据类型本文参考Apache官网,更多内容请参考:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types1. 数值型 类型 支持范围 TINYINT 1-byte signed integer, from -128 to 127 SMA
2017-01-22 11:22:42
51571
原创 Superset权限管理
一、Superset中的安全性由Flask AppBuilder(FAB)处理。 FAB是一个“简单快速的应用程序开发框架,构建在Flask之上”。 FAB提供身份验证,用户管理,权限和角色。默认有3个角色:管理员:管理员拥有所有可能的权利,包括授予或撤销其他用户的权限,以及更改其他人的切片和仪表板。Alpha:Alpha可以访问所有数据源,但无法授予或撤销其他用户
2016-12-15 08:19:35
10905
原创 CDH安装指南
本指南提供有关安装Cloudera软件的说明。我们使用Cloudera Manager进行安装。一、Cloudera Manager,Cloudera Navigator和CDH 5的配置要求本节介绍Cloudera Manager,Cloudera Navigator和CDH 5的配置要求。另请参阅版本和下载信息(http://www.cloudera.com/documen
2016-12-13 13:53:41
1785
原创 Superset 使用说明书
Superset 使用说明书依旧是开篇前的题外话:目前看到官网文档依然使用的之前的版本做的,我本文中使用的截图是目前最新的版本。这个基本的流程式教程将带您通过连接到数据库,添加表,创建切片和仪表板。 一、配置数据库首先,您需要告诉Superset在哪里可以找到要查询的数据库。 首先进入数据库菜单点击“+”来添加新的配置为数据库填入一个任意名称,以及SQL
2016-11-21 22:22:28
28649
15
原创 Superset 安装和配置
Superset 安装和配置开篇之前的题外话:目前,Superset的文档还非常少,而且我也是初次接触,处于学习阶段,故文章主体是Superset的官方文档翻译,我会添加一些我个人的经验和看法。一、基础环境Superset目前使用Python 2.7和Python 3.4+进行测试。 推荐Python 3,不支持Python 2.6。(之前好像只支持2.7,现在主流居然放在了3
2016-11-20 17:02:04
22681
3
原创 Superset简介
Superset简介Superset是Airbnb开源的数据挖掘平台Github地址:https://github.com/airbnb/superset官网地址:http://airbnb.io/projects/superset/Superset之前叫做Caravel,还叫做过Panaramix。到今天为止,Superset在Github上已经有8200多个星了。
2016-11-20 09:26:39
21108
原创 Pandas学习笔记(1)
一、Pandas的数据结构介绍>>> from pandas import Series,DataFrame>>> import pandas as pd>>> import numpy as np1.SeriesSeries:类似于一维数组的对象,由一组数据(各种numpy的数据类型)以及一组与之相关的数据标签(即索引)组成>>> obj=Series([1,2,3,4]
2016-11-01 17:39:21
2358
原创 Numpy学习笔记(1)
Numpy的部分功能1.用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算2.常用的数组算法,如排序、唯一化、集合运算等3.高效的描述统计和数据聚合/摘要运算4.用于异构数据集的合并/连接运算的数据对齐和关系型数据运算5.将条件逻辑表述为数组表达式6.数据的分组运算(聚合、转换、函数应用等)一、ndarray:一种多维数组1.创建简单的ndarr
2016-10-28 14:18:15
351
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人