Spark+Kafka_2019年3月29日和贝贝(京东推荐系统算法组成员)聊天内容记录

本文介绍了京东推荐系统的架构,分为数据平台组、推荐系统算法组和推荐服务组。文章还探讨了如何处理大规模数据的问题,包括数据抽样、解决数据倾斜、数据本地化原则以及使用checkpoint和cache等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

京东的推荐系统大组分三个小组:

1、数据平台组(负责数据采集数据存储数据清洗等)

2、推荐系统算法组,利用数据平台组的数据跑出模型、用户画像等

3、推荐服务组,加载模型文件提供推荐服务

 

应对6.18或是双11,数据量暴增可能采取数据抽样!用样本代替总体。

你们的数据量有多大

如何解决数据倾斜

数据本地化,原则上移动计算不移动数据,但当在某一个节点上集结了太多的计算任务的时候,有时候移动数据反而更快!

check point (检查点,将中间计算结果存到磁盘中,有时候用的时候导致计算速度奇慢无比!!!)/cache

承接kafka的数据流

将数据的key进行hash打散,免得太多的数据落在某一个节点上计算。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值