Python数据分析学习笔记（一）

最新推荐文章于 2023-05-05 19:18:25 发布

原创最新推荐文章于 2023-05-05 19:18:25 发布 · 550 阅读

CC 4.0 BY-SA版权

本文介绍了 Pandas 库中的两种主要数据结构 Series 和 DataFrame 的基本用法，包括创建、索引、选择数据等操作，以及如何使用索引对象进行数据管理。

Pandas 入门

from pandas import Series, DataFrame
import  pandas as pd

由一组数据（Numpy数据类型）与以及与之相关的索引组成。

obj = Series([4,7,-5,3])

可以通过索引方式选取Series中的单个或一组值。

dict可转化为Series。

Series对象本身及其索引都有一个name属性， obj.name = ' ' ; obj.index.name = ' '

索引可以通过赋值的方式更改

frame.index = ['one','two','three','four','five']
frame.ix['three']

表格型数据结构，既有行索引也有列索引。

data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002],
        'pop':[1.5,1.7,3.6,2.4,2.9]}

可以通过指定来排序（columns=）

截取索引段信息，需要设定index值，才能赋予name，ix截取索引

frame.index = ['one','two','three','four','five']
frame.ix['three']

dataframe可以通过Series赋值，根据索引一一配对，为不存在的列赋值会创造新列

frame['eastern'] = frame.state == 'Ohio'

嵌套字典也可解释为dataframe

pop = {'Nevada':{2001:2.4,2002:2.9},
       'Ohio':{2000:1.5,2001:1.7,2002:3.6}}
frame3 = DataFrame(pop)

dataframe。values 以ndarray形式返回

obj = Series(range(3), index=['a','b','c'])
index = obj.index

索引不可变（immutable）

index方法：

append 连接另一个index对象产生新的index

diff 计算差集并得到一个index

intersection 计算交集

union 计算并集

isin 计算一个指示各值是否都包含在参数集合中的布尔型数组

delete 删除索引i处的元素，并得到新的index

drop 删除传入的值，并得到新的index

insert 将元素插入索引i处，并得到新的index

is_monitonic 将各元素均大于前一个元素时，返回True

is_unique 当index没有重负值时，返回True

unique 计算index中唯一值的数组