今天做了一个分类统计,感叹下pandas的强大,也记录下。
统计抽象下类似是这样的,第一列和第二列是事物,第三列表示时间段,第四列表示被访问的值,总计100多万行数据,需要统计aaa、bbb在各时段被访问的次数,a/b/c在各时段被访问的次数:
| key1 | key2 | time_h | value |
| aaa | a | 1 | 13 |
| aaa | b | 3 | 14 |
| aaa | c | 2 | 15 |
| bbb | a | 2 | 16 |
| bbb | b | 3 | 16 |
| bbb | c | 4 | 15 |
| aaa | a | 1 | 15 |
| aaa | b | 4 | 14 |
Python pandas进行高效分类统计
本文介绍了使用Python的pandas库进行大规模数据的分类统计,通过groupby函数处理100多万行的数据,轻松统计各时段不同类别(如aaa、bbb、a/b/c)的访问次数,展示了pandas在数据处理上的强大功能。
今天做了一个分类统计,感叹下pandas的强大,也记录下。
统计抽象下类似是这样的,第一列和第二列是事物,第三列表示时间段,第四列表示被访问的值,总计100多万行数据,需要统计aaa、bbb在各时段被访问的次数,a/b/c在各时段被访问的次数:
| key1 | key2 | time_h | value |
| aaa | a | 1 | 13 |
| aaa | b | 3 | 14 |
| aaa | c | 2 | 15 |
| bbb | a | 2 | 16 |
| bbb | b | 3 | 16 |
| bbb | c | 4 | 15 |
| aaa | a | 1 | 15 |
| aaa | b | 4 | 14 |

被折叠的 条评论
为什么被折叠?