我们怎样把 X 银行用户画像客群交集计算提速 200+ 倍

数据分析师terry_chengq

于 2020-11-26 21:43:57 发布

阅读量457

点赞数

文章标签：性能优化大数据性能 BI性能多维分析性能 olap性能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/terry_chengq/article/details/110206158

版权

本文讲述了X银行在用户画像客群交集计算中遇到的性能问题，原有的基于Hadoop的OLAP Server解决方案性能低下。通过深入分析数据和计算特征，优化了数据存储结构和查询算法，利用集算器SPL实现了250倍的性能提升，解决了客群交集计算的性能瓶颈，无需预计算，提升了系统的灵活性和效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述

X银行用户画像应用中，需要完成客群交集计算。客群数量多达数千个，每个客群包含的客户数量不等，从几十万到上亿都有。要计算出任意N（一般是2-10）个客群共同的客户。例如：滴滴出行客群有几百万客户，手机银行客群有几千万客户，需要求出滴滴出行和手机银行共同的客户数量。

对客群交集计算的结果，还要进行维度筛选。比如：滴滴出行和手机银行共同的客户，要对性别、年龄段和地域维度进行筛选，最终计算出满足各个维度条件的客户数量。

为了从时间维度做分析，每次要计算一年的结果，因此要保存十二个月的历史数据，每个月一套。针对十二个月的明细数据进行客户交集运算称为一个单任务。

X银行基于Hadoop体系某知名OLAP Server产品来实现客群交集计算，发现性能很差。动用了100个CPU（核）的虚拟机集群，完成一个单任务平均也要2分钟左右。而期望的性能指标是要在10秒内并发完成10-20个单任务，差距过于巨大。

采用该OLAP Server产品推荐的预计算方式可以满足性能要求。即预先计算好客群交集，把结果保存下来，再在结果基础上计算维度筛选。但是，几千个客群，仅仅考虑任意两个客群交集的组合就会上千万种，这勉强还可以存储下来，更多个客群交集想事先保存下来是个不可能完成的任务。

解决过程

第一步，深入理解数据和计算特征，分析性能瓶颈。

客户的每个维度的取值都是唯一的，每个客户一条记录即可存储，一亿个客户是一亿条记录。

维度没有层次关系，维度的属性一般是几个到几十个。比如：性别的属性是两个，年龄段的属性是十几个。参与过滤的维度总数是十到二十个。

一个客户平均属于10个客群，如果用数据库表来存储的话，客户-客群表就有十亿多条记录。表结构如下图：

客群交叉和维度过滤的SQL语句，经过简化后如下：

select count(*) from (

select count(g.cg) from customer_group g

left join customer_dim d on g.id=d.id

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。