pandas应用入门(二)
如果使用 pandas 做数据分析,那么DataFrame
一定是被使用得最多的类型,它可以用来保存和处理异质的二维数据。这里所谓的“异质”是指DataFrame
中每个列的数据类型不需要相同,这也是它区别于 NumPy 二维数组的地方。DataFrame
提供了极为丰富的属性和方法,帮助我们实现对数据的重塑、清洗、预处理、透视、呈现等一系列操作。
创建DataFrame对象
通过二维数组创建DataFrame对象
代码:
scores = np.random.randint(60, 101, (5, 3))
courses = ['语文', '数学', '英语']
stu_ids = np.arange(1001, 1006)
df1 = pd.DataFrame(data=scores, columns=courses, index=stu_ids)
df1
输出:
语文 数学 英语
1001 69 80 79
1002 71 60 100
1003 94 81 93
1004 88 88 67
1005 82 66 60
通过字典创建DataFrame对象
代码:
scores = {
'语文': [62, 72, 93, 88, 93],
'数学': [95, 65, 86, 66, 87],
'英语': [66, 75, 82, 69, 82],
}
stu_ids = np.arange(1001, 1006)
df2 = pd.DataFrame(data=scores, index=stu_ids)
df2
输出:
语文 数学 英语
1001 62 95 66
1002 72 65 75
1003 93 86 82
1004 88 66 69
1005 93 87 82
读取CSV文件创建DataFrame对象
可以通过pandas
模块的read_csv
函数来读取 CSV 文件,read_csv
函数的参数非常多,下面介绍几个比较重要的参数。
sep
/delimiter
:分隔符,默认是,
。header
:表头(列索引)的位置,默认值是infer
,用第一行的内容作为表头(列索引)。index_col
:用作行索引(标签)的列。usecols
:需要加载的列,可以使用序号或者列名。true_values
/false_values
:哪些值被视为布尔值True
/False
。skiprows
:通过行号、索引或函数指定需要跳过的行。skipfooter
:要跳过的末尾行数。nrows
:需要读取的行数。na_values
:哪些值被视为空值。iterator
ÿ