
pandas
confiself
这个作者很懒,什么都没留下…
展开
-
python数据分析之pandas(13)高级数据聚合
之前通过map函数,可以对列进行处理,这节主要学习transform和apply函数 1. transform函数 transform()函数更适用于聚合操作,但是它对参数有特定要求:作为参数的函数必须生成一个标量(聚合),因为只有这样才能进行广播 frame.groupby(‘color’).transform(np.sum).add_prefix(‘tot_’) >>> im...原创 2020-02-21 22:44:05 · 217 阅读 · 0 评论 -
python数据分析之pandas(12)数据聚合
1.goupby()函数实例 可以对frame或者其中部分列排序,排序by可以是一列或多列,返回索引列为by中的列,而columns则为所选择的要排序的列 frame[‘price1’].groupby(frame[‘color’]) >>> frame = pd.DataFrame({'color': ['white', 'red', 'green', 'red', 'gree...原创 2020-02-20 23:06:44 · 242 阅读 · 0 评论 -
python数据分析之pandas(11)排序和字符串处理
1.take排序 take()函数可以理解为对frame对象按照给定行按顺序抽取 frame.take([2,1]) //取index为2,1的行 >>> import pandas as pd >>> import numpy as np >>> frame = pd.DataFrame(np.arange(9).reshape(3,3)) ...原创 2020-02-19 21:29:06 · 1086 阅读 · 0 评论 -
python数据分析之pandas(10)离散化和元面划分
为对连续数据进行分区,pandas提供了一些函数: 1. 区间划分 >>> import pandas as pd >>> results = [1,3,4,8,2,5] >>> bins = [1,3,9] >>> cat = pd.cut(results, bins) 注意:这里的bins最小值要小于results中的值...原创 2020-02-18 23:19:37 · 304 阅读 · 0 评论 -
python数据分析之pandas(10)数据转换
1. 删除重复元素 通过duplicated()函数可以找出重复的行,操作如下: frame.duplicated() //判断是否重复行 frame[frame.duplicated()] //删除重复行 frame.drop_duplicates() //删除重复行 示例如下: >>> frame = pd.DataFrame({'color': ['white', 'wh...原创 2020-02-17 22:52:59 · 166 阅读 · 0 评论 -
python数据分析之pandas(9)数据拼接
1.拼接 numpy的concatenate函数 利用concatenate可实现按axis进行拼接,如: >>> import numpy as np >>> a = np.arange(9) >>> a array([0, 1, 2, 3, 4, 5, 6, 7, 8]) >>> a = np.arange(9).resh...原创 2020-02-16 22:04:30 · 159 阅读 · 0 评论 -
python数据分析之pandas(8)数据合并
1.merge函数指定合并列 >>> import pandas as pd >>> frame1 = pd.DataFrame({'id': ['ball', 'pencil', 'pen', 'mug', 'ashtray' olor': ['white', 'red', 'red', 'black', 'green'], 'brand': ['OMG...原创 2020-02-15 21:17:12 · 326 阅读 · 0 评论 -
python数据分析之pandas(7)数据读写
pandas提供各种I/O API函数,这里把一些常用的方式分享给大家。 1.读写csv文件 frame = read_csv('a.csv') //返回DataFrame对象,相关参数如: names=['',''] 指定表头; header=None 使用默认表头; index_col=['color', 'status'],给前2列设置为层级索引 frame.to_cs...原创 2020-02-14 22:34:51 · 158 阅读 · 0 评论 -
python数据分析之pandas(6)等级索引和分级
之前介绍的Series和DataFrame都是单条索引,其实还可以是多级索引。通过多级索引可以很方便的处理多维数据。 注:ser指Series对象,frame指DataFrame对象 1. Series多级索引 >>> ser = pd.Series(np.arange(4), index=[['a', 'a', 'b', 'b'], ['i1', 'i2', 'i3']...原创 2020-02-14 21:48:40 · 1982 阅读 · 0 评论 -
python数据分析之pandas(5)排序、位次和NaN
排序和位次 约定:ser指Series,frame值DataFrame 1. 根据索引排序 ser.sort_index() //索引升序 ser.sort_index(ascending=False) //索引降序 frame.sort_index(axis=1) //按列名排序,默认0为按索引行排序 2.元素排序 ser.order() //元素排序 frame.sort_i...原创 2020-02-12 22:16:08 · 1327 阅读 · 0 评论 -
python数据分析之pandas(二)DataFrame对象
DataFrame对象 DataFrame可以理解为一个由Series组成的字典,其中一列的名称为字典的键,Series为字典的值。一般可以直接通过字典或嵌套字典来构建DataFrame 1. 定义DataFrame对象 通过dict创建DataFrame,这里的color和object为columns名 >>> data = {'color': ['r', 'g', ...原创 2020-02-10 21:50:25 · 435 阅读 · 0 评论 -
python数据分析之pandas(一)
Series对象 1. 声明Series对象 a.通过数组赋值 >>> import pandas as pd >>> s = pd.Series([9,8,-1,2]) >>> s 0 9 1 8 2 -1 3 2 dtype: int64 b.设置index >>> s = pd.Ser...原创 2020-02-08 22:47:44 · 117 阅读 · 0 评论