
利用Python进行数据分析
文章平均质量分 84
wuzlun
这个作者很懒,什么都没留下…
展开
-
利用Python进行数据分析笔记-数据加工(合并、整形、旋转及分层索引)
在很多应用中,数据通常散落在不同的文件或数据库中,并不方便进行分析。数据加工就是对这些数据的统一。join:连接combine:合并reshape:整形merge:归并concatenate:串联pivot:旋转stack:堆叠import pandas as pdimport numpy as np合并数据集pandas里有几种方法可以合并数据:...原创 2018-05-11 16:58:32 · 1496 阅读 · 0 评论 -
利用Python进行数据分析笔记-pandas建模(statsmodels篇)
跟着教程学习了一段时间数据分析,越学感觉坑越多。于是花了一个星期仔细看了下《利用Python进行数据分析》。写在这里主要是记录下,方便自己查看。statsmodels简介statsmodels是一个有很多统计模型的python库,能完成很多统计测试,数据探索以及可视化。它也包含一些经典的统计方法,比如贝叶斯方法和一个机器学习的模型。statsmodels中的模型包括:...原创 2018-05-14 08:49:39 · 48720 阅读 · 5 评论 -
利用Python进行数据分析笔记-pandas建模(Patsy篇)
跟着教程学习了一段时间数据分析,越学感觉坑越多。于是花了一个星期仔细看了下《利用Python进行数据分析》。写在这里主要是记录下,方便自己查看。import numpy as npimport pandas as pdimport patsy# 利用Patsy创建模型描述Patsy是一个python库,用于描述统计模型(尤其是线性模型),方法是通过一个叫做公式语法(...原创 2018-05-11 23:01:17 · 13036 阅读 · 8 评论 -
利用Python进行数据分析笔记-时间序列(移动窗口函数)
Moving Window Functions(移动窗口函数)一种用于时间序列操作的重要用法,是使用滑窗(sliding windown)或呈指数降低的权重(exponentially decaying weights),来对时间序列进行统计值计算和其他一些函数计算。 这个对于消除噪声或有缺陷的数据是很有用的。这里我们称之为Moving Window Functions(移动窗口函数),不过其...原创 2018-05-11 22:57:36 · 16835 阅读 · 2 评论 -
利用Python进行数据分析笔记-时间序列(时区、周期、频率)
时区处理时区可以理解为UTC的偏移(offset),例如,在夏令时,纽约时间落后于UTC时间四个小时,而在一年的其他时间里,纽约时间落后于UTC时间五个小时。在python中,时区信息来自第三方的pytz库,这个库利用的是奥尔森数据库,这个数据库汇集了世界时区信息。这个信息对于历史数据很重要,因为夏令时(daylight saving time,DST)的交接日(transition da...原创 2018-05-11 22:52:33 · 7833 阅读 · 0 评论 -
利用Python进行数据分析笔记-时间序列(转换、索引、偏移)
时间序列指能在任何能在时间上观测到的数据。很多时间序列是有固定频率(fixed frequency)的,意思是数据点会遵照某种规律定期出现,比如每15秒,每5分钟,或每个月。时间序列也可能是不规律的(irregular),没有一个固定的时间规律。如何参照时间序列数据取决于我们要做什么样的应用,我们可能会遇到下面这些:Timestamps(时间戳),具体的某一个时刻Fixed periods...原创 2018-05-11 22:42:09 · 3463 阅读 · 0 评论 -
利用Python进行数据分析笔记-数据加工(分组、聚合及分组应用)
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd# 数据汇总和组操作### 1、GroupBy Mechanics(分组机制)Hadley Wickham,是很多R语言有名库的作者,他描述group operation(组操作)为s...原创 2018-05-11 17:17:35 · 3382 阅读 · 0 评论 -
利用Python进行数据分析笔记-Numpy基础
跟着教程学习了一段时间数据分析,越学感觉坑越多。于是花了一个星期仔细看了下《利用Python进行数据分析》。写在这里主要是记录下,方便自己查看。import matplotlib.pyplot as pltimport numpy as np创建n维数组1、使用array函数最简单的方法使用array函数,输入一个序列即可,比如list# 随机生成数据data = ...原创 2018-05-11 16:11:29 · 747 阅读 · 0 评论 -
利用Python进行数据分析笔记-pandas基础
import pandas as pdfrom pandas import Series, DataFrameimport numpy as npSeries基础obj = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])obj d 4 b 7 a -5 c...原创 2018-05-11 16:32:03 · 915 阅读 · 0 评论 -
利用Python进行数据分析笔记-读写数据
Pandas方法1、读取文件pandas有很多用来读取表格式数据作为dataframe的函数,下面列出来一些。其中read_csv和read_tabel是最经常用到的:import pandas as pdimport numpy as np# read_csv方法df = pd.read_csv('../examples/ex1.csv')df...原创 2018-05-11 16:39:45 · 3142 阅读 · 1 评论 -
利用Python进行数据分析笔记-数据清洗
在pandas中,missing data呈现的方式有些缺点的,但对大部分用户能起到足够的效果。对于数值型数据,pandas用浮点值Nan(Not a Number)来表示缺失值。我们称之为识别符(sentinel value),这种值能被轻易检测到数据缺失在pandas中,我们使用了R语言中的一些传统,把缺失值表示为NA(not available)。在统计应用里,NA数据...原创 2018-05-11 16:49:38 · 2457 阅读 · 0 评论 -
利用Python进行数据分析笔记-pandas建模(scikit-learn篇)
跟着教程学习了一段时间数据分析,越学感觉坑越多。于是花了一个星期仔细看了下《利用Python进行数据分析》。写在这里主要是记录下,方便自己查看。scikit-learn简介scikit-learn是一个被广泛使用的python机器学习工具包。里面包含了很多监督式学习和非监督式学习的模型,可以实现分类,聚类,预测等任务。虽然scikit-learn并没有和pandas深度整合,但在训练模...原创 2018-05-14 08:51:20 · 3755 阅读 · 0 评论