pandas计算某列每行带有分隔符的数据中包含特定值的次数

原创

已于 2024-10-20 19:14:34 修改 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2021-07-16 19:30:18 首次发布

本文介绍如何使用Pandas处理脱敏后的用户ID数据，通过str.split()、expand=True和stack()函数计算每个用户在关注列表中的粉丝数，展示了两种方法并提供实例解析。

某次做一个数据的处理，要计算用户的粉丝数量，数据集大概是这样的：

这里的数据，都是经过脱敏处理后的id，即每个用户和他们的关注列表。“关注用户ids”应该是字符串类型，每一行由双引号包裹，由逗号作为id之间的分隔符。要计算用户的粉丝数量，就是看他们在所有用户的关注列表当中出现了多少次，也就是要对“关注用户ids”列出现的各个id进行计数。

参考博文¹进行以下处理

countN = dataI0['name'].str.split('|', expand=True).stack().value_counts()
# 计算各元素出现的次数

其中，不能对数据框的列Chart3Part[‘关注用户ids’]直接应用split，而需要先调用str。

博文¹当中还有另一种方法，先单独对每一行进行处理，再从总的视角进行计数

countN = pd.Series(Counter([y for x in dataI0['name'] for y in x.split('|')]))

完整的示例如下：

import pandas as pd

dataI0 = pd.DataFrame(data=[

2 条评论