Pandas基础上有五个部分的内容,暂时告一段落,下面的小练习题有三个大问题组成,自己做出来了一部分题,由于一些理解问题,一部分还没有运行出来,在之后的学习过程中,会补全这部分内容。
一、2002年-2008年上海机动车拍照拍卖
import numpy as np
import pandas as pd
import re
df = pd.read_csv('数据集/数据集/2002年-2018年上海机动车拍照拍卖.csv')
df.head()
问题:
(1) 哪一次拍卖的中标率首次小于 5%?
df[df['Total number of license issued'] / df['Total number of applicants'] < 0.05].index[0]
(2) 按年统计拍卖最低价的下列统计量:最大值、均值、0.75 分位数,要求 显示在同一张表上。
(3) 将第一列时间列拆分成两个列,一列为年份(格式为 20××),另一列为 月份(英语缩写),添加到列表作为第一第二列,并将原表第一列删除, 其他列依次向后顺延。
df['年份'] = df['Date'].apply(lambda x : 2000+int(x.split('-')[0]))
df['月份'] = df['Date'].apply(lambda x : x.split('-')[1])
new_columns = ['年份','月份']+list(df.columns[1:-2])
df_1= df.reindex(columns=new_columns).copy()
df_1.head()
(4) 现在将表格行索引设为多级索引,外层为年份,内层为原表格第二至第 五列的变量名,列索引为月份。
Month = df_1.iloc[0:12