一、目的:
通过Pandas中的groupby和agg结合自定义函数,实现针对string型数据的聚合函数,即同一组别的唯一值,以数组形式返回(类似Hive中的collect_set函数)
二、实现
方法一:
1.groupby返回的是一个迭代器(key, keyvalue),需要For循环提取;
2.agg中每次传入的是一个key的所有keyvalue数据(若前面groupby步骤未对data进行字段筛选,即为data中所有数据)
3.使用collect_set时,groupby的key只能是一个字段;
import pandas as pd
data = pd.DataFrame([['one','a'], ['one', 'b'], ['two', 'c'], ['two', 'd']], columns=['key', 'value'])
print('【原始数据