经常有需要用python脚本去处理excel做统计工作,那么pandas为统计工作的首选。下面来看下dataframe的简单操作。
获取指定行、列
row = df.iloc[3, :] # 获取第4行
column = df.iloc[:, 3] # 获取第4列
获取dataframe坐标值
value = data.iat[0,5] # dataframe.iat[0,0]开始
行 or 列拼接
nc_df = pd.concat([gt_defect, infer_defect], axis=0) # 垂直拼接gt_defect列 和 infer_defect列
去重,去空
nc = df.drop_duplicates().dropna() # 去重, 去空, df为某一列
# nc = np.array(nc).tolist() # dataframe --> list
从df中筛选出a列中包含string的所有行(不包含空行), return dataframe
data = df[df['a'].str.contains('string', na=False)]
data = type_not_null[type_not_null[pic_or_product_level].astype(str).str.contains(i, na=False)] # i为数字的话,需要这样筛选
获取dataframe行数
total_rows = len(df.index)
去掉 type 列空行
type_not_null = df[df['type'].notnull()] # 保留空行为isnull()
list中某元素的数量
model_loushi = one_list.count('loushi')
dataframe新增列
df['pic_name'] = df['a'].map(str) + '-' + df['b'].map(str) + '-' + df['c'].map(str) # 将a,b,c三列拼接成为一列命名为pic_name放在dataframe最后一列