你在项目中负责那个域?
你们公司数据量有多大?
留存率是怎么计算的?
为什么你们公司划分为5个域?ads层的模型是什么?
Hdfs的小文件问题,
HQL的优化

-- 查询满足条件的用户
SELECT user_id
FROM user_ss
WHERE dt = DATEADD(day, -1, GETDATE())
AND (prov = '河北省' OR city = '郑州市');
-- 查询满足条件的用户的交易情况
SELECT t.user_id, COUNT(t.order_id) AS 订单数
FROM trade_inc t
JOIN user_ss u ON t.user_id = u.user_id
WHERE (u.prov = '河北省' OR u.city = '郑州市')
AND t.is_suc BETWEEN 3 AND 6
GROUP BY t.user_id;
本文讨论了在项目中涉及的关键技术问题,如数据规模管理、留存率计算方法、公司业务域划分、广告层模型设计、HadoopHDFS小文件挑战以及Hive查询语言优化。
1万+

被折叠的 条评论
为什么被折叠?



