Pandas简介
Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。
Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。
Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy。
Pandas数据结构
-
Series是一种类似于一维数组的对象,它由一组数据(各种 Numpy 数据类型)以及一组与之相关的数据标签(即索引)组成。
-
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。
可以引用其他库进行数据可视化或者传入excel文件
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
student_data1 = {"Name" : [ 'john' , 'tom' , 'Amy' , 'Jane' , 'Scott']
,"Age" : [20 , 19 , 18 , 17 ,16 ]
,"Gender" : ["Male","male","Female","Female","Male"]
,"Grade" : [85,90,95,80,75]}
df = pd.DataFrame(data=np.full((3,4), np.nan), columns=list('abcd'), index=list('xyz'))
df.loc['x','a'], df.loc['y','a'], df.loc['x','b'] =1,2,3
print(df)
num_data1 = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
student_data2 = [{'Name':'John','Gender':'Male','Grade':85},
{'Name':'Tom','Age':19,'Gender':'male','Grade':90},
{'Name':'Amy','Age':18,'Gender':'female'}]
student_df1 = pd.DataFrame(student_data1)
student_df2 = pd.DataFrame(student_data2)
print(student_df1)
print(student_df2)
print(num_data1)
print(num_data1.index)
num_data1.plot(kind='bar')
plt.show()
writer = pd.ExcelWriter('student.xlsx')
student_df1.to_excel(writer,sheet_name='Sheet1')
writer.close()
student_df1.plot(x='Name',y='Grade',kind='bar')
plt.show()