今天在工作中遇到一个需求:有一个ABC三列的表,其中A列数据大量重复,且BC列不同。现在需要根据A列的数据,汇总A列去重并输出重复次数最多的100行(N行)
原始表类似于这样:
| A | B | C |
| FFFEFFFEFFF | 71956 | 1 |
| FFFF7FFF7FF | 28994 | 2 |
在处理大量数据时,使用Python的pandas库可以高效地计算数据列的重复次数。针对含有ABC三列的表格,通过聚焦A列进行去重统计,可以迅速获取重复次数最多的100行记录,避免了Excel处理大数据时的性能问题。解决方案包括导入数据、计算A列重复次数、筛选前1000行并去重,最后保存结果。
今天在工作中遇到一个需求:有一个ABC三列的表,其中A列数据大量重复,且BC列不同。现在需要根据A列的数据,汇总A列去重并输出重复次数最多的100行(N行)
原始表类似于这样:
| A | B | C |
| FFFEFFFEFFF | 71956 | 1 |
| FFFF7FFF7FF | 28994 | 2 |
1144
1370
1891