京东的推荐系统大组分三个小组:
1、数据平台组(负责数据采集数据存储数据清洗等)
2、推荐系统算法组,利用数据平台组的数据跑出模型、用户画像等
3、推荐服务组,加载模型文件提供推荐服务
应对6.18或是双11,数据量暴增可能采取数据抽样!用样本代替总体。
你们的数据量有多大
如何解决数据倾斜
数据本地化,原则上移动计算不移动数据,但当在某一个节点上集结了太多的计算任务的时候,有时候移动数据反而更快!
check point (检查点,将中间计算结果存到磁盘中,有时候用的时候导致计算速度奇慢无比!!!)/cache
承接kafka的数据流
将数据的key进行hash打散,免得太多的数据落在某一个节点上计算。