数据分组group(分组前和分组后数据量对不上)
分组的数据,分组前总得数据量,应该等于分组后,每组len加起来的总和
chushi_len=len(df) #数据未分组前的长度
index_value = list()
for index, groupdf in df.groupby(by=group_list):
index_value.append(len(groupdf))
zuihou_len=sum(index_value )
chushi_len应该等于zuihou_len,但是最近我码代码遇到一个情况就是这两个值,不相等。经过调试发现,原来是进行分组的列含有nan
这是你只需要把这一列的nan值进行填充即可。
例如:
group_list = ['aa', 'bb', 'cc']#其中cc列中有nan值
df['cc']=df['cc'].fillna(你想填充的)
将特殊列进行处理之后,再分组,数据就对得上了