
这一节,我们的目标是想把 transaction 数据 和 transaction_detail 数据 也合并到一起。
和上一节的concat合并(数据列相同)不同,这次的两个数据集合,数据列是不同的。所以,合并时就会有下面的问题:
- 是将两个数据集合的数据列全部合并?还是只合并必要的数据列?
- 两个数据集合合并的连接点是哪个数据列?
带着上面的问题,我们还是回到刘先生的需求:如何让自己的店铺销量越来越好?
- 显然从销量的角度,还是以更有利于分析的 transaction_detail 为主,transaction 为辅。也就是说,将 transaction_detail 中的数据列全部合并,而将 transaction 数据 中的部分数据列合并。至于选择哪些数据列,则没有要求,根据你的具体选择而定。这里我们将“payment_date”和“customer_id”合并进来。
- 通过观察两个数据集,可以发现共同存在的数据列是“transaction_id”,所以,就以这个数据列作为连接两个数据集的纽带。
代码如下:
join_data = pd.merge(transaction_detail,transaction[["transaction_id","payment_date","cus

本文介绍如何使用Python的merge函数将不同数据列的transaction和transaction_detail数据集合进行合并。重点讨论了合并策略,以transaction_detail为主,选择了特定数据列如'payment_date'和'customer_id'进行合并,并以'transaction_id'为共同列进行左连接(left join)。最终通过示例展示了合并过程及结果,确保数据量与原始数据一致。
最低0.47元/天 解锁文章
8385

被折叠的 条评论
为什么被折叠?



