Pandas安装
- conda安装:注意要与使用的环境进行匹配 conda install pandas
- pip安装:需要安装pip 使用pip install pandas
Pandas使用
Series类型使用
- 定义与常见特点
import numpy as np
import pandas as pd
#此处表面上是pandas中的Series类型,但底层应用的是numpy
g7 = pd.Series([35.467, 63.951, 80.940,
60.665, 127.061, 64.511, 318.523])
print(g7.dtype)
print(g7.values)
print(type(g7.values))
print(g7.index)
#在没有指定序号的时候,序号通常是从0开始的自然数
g7.index = [
'canada',
'France',
'Germany',
'Italy',
'Japan',
'United Kingdom',
'United States'
]
print(g7)
#自定义了序号的序列可以类比于python的字典,不同之处在于其自带顺序
g7.name = 'G7 Population in millions'
- 此处可以直接在定义时将序号名称带入
- 在不是默认序号的序列的情况下,切片的方法和注意事项
#以下三种均为第一个值的取值方法
print(g7[0])
print(g7.iloc[0])
print(g7['canada'])
#通常[:2]无法得到最后一个位置元素,可以采用以下方法
print(g7['canada':'Italy'])
DataFrame的使用
- 特点:每一列都可以看作Series,看作多个Series的组合
- 基本使用和增加减少信息
df = pd.DataFrame({
'Population': [35.467, 63.951, 80.940, 60.665, 127.061, 64.511, 318.523],
'GDP':[1785387, 2833687, 3874437, 2167744, 4602367, 2950039, 17348075],
'Continent':['America', 'Europe', 'Europe', 'Europe', 'Asia', 'Europe', 'America']},
columns=['Population', 'GDP', 'Continent']
)
df.index = [
'canada',
'France',
'Germany',
'Italy',
'Japan',
'United Kingdom',
'United States'
]
print(df)
print(df.columns)
print(df.index)
print(df.info())
#会告诉我们一些基础信息,同时告诉我们是否存在空值,便于进行数据清洗
print(df.describe())
#会告诉我们一些基础信息,例如:数据储存所需要的内存,常见的一些数字特征(总计、平均值、标准差、最大最小、四分之一二三分位数),列的数据类型等
print(df.dtypes.value_counts())
print('____________________________')
print(df.loc['canada'])
#根据序号来选择一行
print(df.iloc[-1])
#根据数字序号来选择一行
print(df['Population'])
#选择一列
print(df.loc['France':'Italy', 'Population'])
#同时对于行列进行限制
#对于df中的数据进行删除,可以使用drop函数
print(df.drop('canada'))
#广播机制
print(df[['Population', 'GDP']] / 100)
crisis = pd.Series([-1_000_000, -0.3], index=['GDP', 'Population'])
print(df[['GDP', 'Population']] + crisis)
#修改dataframe会返回一个新的dataframe
#通过其他列来形成新的列
df['GDP Per capata'] = df['GDP'] / df['Population']
print(df)
- 常用函数
population = df['Population']
#中位数
print(population.median())
#四分之一
print(population.quantile(.25))
print(population.quantile([.2,.4,.6,.8,1]))
外部文件导入
-
文件导入和常见消息
import numpy as np
import pandas as pd
df = pd.read_csv('dta/test.csv')
#开始五条
print(df.head())
print(df.info())
#默认最后五条,此处是最后三条
print(df.tail(3))
df = pd.read_csv(
'dta/test.csv',
header = None,
names = ['income', 'outcome'],
index_col = 0,#将第一列作为index
parse_dates=True
)
print(df)
代码:test05、test06