大数据
文章平均质量分 90
预言家请睁眼
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多窗口播放时长去重方案
在Web端视频、直播、在线教育等场景中,用户可能同时打开多个浏览器窗口或标签页观看同一内容(如直播课程、长视频等)。这种情况下,传统的播放日志统计方式(如直接累加各窗口的播放时长)会导致重复计算,影响数据分析的准确性。例如:用户A在Chrome的两个标签页同时播放同一个视频,每个窗口记录播放10分钟,简单累加会统计为20分钟,但实际观看时长应为10分钟。用户B在PC端和手机端同时观看直播,若不做去重,会导致时长数据计算偏高,甚至极端情况下,会出现用户当天播放时长>24h的情况本篇内容源于真实案例。原创 2025-05-25 18:04:43 · 635 阅读 · 0 评论 -
一次大表join倾斜优化实战
在短视频/直播平台的数仓建设中,大表关联(JOIN)是常见的计算场景。1、数据分布不均衡:头部热门视频(如爆款视频)的播放记录可能占据总数据的80%以上,引发关联时的热点Key问题;2、资源浪费:部分Reduce节点因处理超量数据长时间未完成,其他节点空闲;3、作业超时风险:倾斜导致任务卡在99%进度,甚至因单个节点OOM而失败。传统方案(如直接增加Reduce并行度、mapjoin等)效果有限,而随机前缀优化法通过改造关联键分布,结合分治思想可有效解决倾斜问题。原创 2025-04-15 18:43:08 · 843 阅读 · 0 评论
分享