前言
- 最近工作中经常实用pandas,然而,却发现自己对于pandas的掌握并没有想象中的好,很多pandas的函数和用法,自己都不是特别的熟练,特此总结一下最近经常会使用的pandas用途和函数,增强记忆。
pandas用途之DataFrame遍历
- 按照行对于DataFrame进行遍历,得到每一行,然后对于行进行操作,取每一列的单个数据
for index,row in df.iterrows(): print(row['列名'],row['列名'])
- 如果需要得到每一行的每列的数据进行计算,则需要row[‘列名’].iloc[0]取出行中的单个元素
- 因为,单纯的取出row[‘列名’]是Series类型,会带有Series类型的一些索引等内容。
pandas用途之DataFrame数据查询重复,去除重复
- DataFrame数据查询和取出重复元素,都是根据df.duplicated来实现的
- 使用df.duplicated()来查询重复值,返回布尔类型的值
- 参数:subset,设置判断重复的时候,按照哪些列进行判断。
- 可以使用列表的方式设置,subset = [“列a”,“列b”]
- 可以使用字符串的方式定义,subset = “列a”
- 参数:keep,设置判断重复的时候,保留项
- keep = “first”, 保留第一项
- keep = “last”, 保留最后一项
- keep = False,一个都不保留
- 参数:subset,设置判断重复的时候,按照哪些列进行判断。
- 使用df.drop_