Pandas
Pandas 是一个用于数据操作和分析的开源数据分析库。它基于 NumPy 构建。
Pandas 库最常用的两个数据结构是 Series
和 DataFrame
。
# 创建一个Series
s = pd.Series([1, 3, 5, 7, 9])
# 创建一个DataFrame
data = {
'A': [1, 2, 3, 4],
'B': [5, 6, 7, 8],
'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)
print(s_37)
print(df_37)
读取csv文件
CSV(Comma-Separated Values,逗号分隔值)文件是一种常见的、用于存储表格数据的纯文本文件格式。
- 结构简单:CSV 文件由行和列组成,行之间以换行符分隔,列之间以逗号(或其他分隔符,如分号、制表符)分隔。第一行通常为表头,包含列的名称。
- 纯文本格式:CSV 文件是纯文本文件,可以使用任何文本编辑器查看和编辑。具有良好的可移植性。
读取csv文件:
df = pd.read_csv(csv_file, sep=',', header=None)
header属性:属性可以用来指定文件中哪一行作为列名。如果数据文件没有列名,可以将 header 设置为 None,Pandas 会自动分配数值型列名,如0, 1, 2, 3, …。
如果有列名,还将header设置为none的话,那么就相当于让每行的数据从1开始编号
df = pd.read_csv('all.csv')
print(df.head()) # 输出前5行
df2 = pd.read_csv('all.csv', header=None)
print(df2.head())
再读取0行后的内容
df2 = df2.iloc[1:]
print(df2.head())
iloc[]
iloc
是 Pandas DataFrame 的一个方法,用于基于行和列的整数位置进行索引和切片操作。
value = df.iloc[0, 1] # 返回第0行第1列的单个值
row = df.iloc[0] # 返回第0行作为一个Series对象
column = df.iloc[:, 1] # 返回第1列作为一个Series对象
sub_df = df.iloc[0:2, 1:3] # 返回一个DataFrame,包含从第0行到第2行和第1列到第3列的切片
ries对象
sub_df = df.iloc[0:2, 1:3] # 返回一个DataFrame,包含从第0行到第2行和第1列到第3列的切片