自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 多窗口播放时长去重方案

在Web端视频、直播、在线教育等场景中,用户可能同时打开多个浏览器窗口或标签页观看同一内容(如直播课程、长视频等)。这种情况下,传统的播放日志统计方式(如直接累加各窗口的播放时长)会导致重复计算,影响数据分析的准确性。例如:用户A在Chrome的两个标签页同时播放同一个视频,每个窗口记录播放10分钟,简单累加会统计为20分钟,但实际观看时长应为10分钟。用户B在PC端和手机端同时观看直播,若不做去重,会导致时长数据计算偏高,甚至极端情况下,会出现用户当天播放时长>24h的情况本篇内容源于真实案例。

2025-05-25 18:04:43 631

原创 两个拉链表拼接(关联)实践

在数据仓库开发中,拉链表常用于记录维度属性的历史变更轨迹。当业务存在以下需求时,需要将两张拉链表拼接为一张统一的拉链表(拉链表的使用场景、创建/使用方式不在此展开讲)1. 多维度属性协同分析业务场景某个业务实体(如部门、用户、商品)存在多个独立维护的维度属性(如部门状态、部门地理位置),且需分析这些属性随时间变化的联合影响。例如:分析某部门状态()和其所在地区政策变化(另一张表的属性)的关联性,需同时获取两个属性的历史时间线。原痛点。

2025-04-17 13:59:23 1025

原创 一次大表join倾斜优化实战

在短视频/直播平台的数仓建设中,大表关联(JOIN)是常见的计算场景。1、数据分布不均衡:头部热门视频(如爆款视频)的播放记录可能占据总数据的80%以上,引发关联时的热点Key问题;2、资源浪费:部分Reduce节点因处理超量数据长时间未完成,其他节点空闲;3、作业超时风险:倾斜导致任务卡在99%进度,甚至因单个节点OOM而失败。传统方案(如直接增加Reduce并行度、mapjoin等)效果有限,而随机前缀优化法通过改造关联键分布,结合分治思想可有效解决倾斜问题。

2025-04-15 18:43:08 841

原创 Kylin集群部署及基本架构简介

一、基本架构及原理实现:利用hadoop中MapReduce框架对hive表中的数据进行预计算,将预计算结果缓存至Hbase中,解决TB级数据分析需求原理架构参考:https://www.cnblogs.com/tgzhu/p/6113334.html解决问题:解决海量数据上进行快速查询的难题解决方案:对于超大数据集的复杂查询,由于现场计算需要花费较长时间,根据空间换时间的原...

2019-10-12 17:18:48 1242

原创 zeppelin 基于yarn-cluster模式环境部署

一、环境:Spark-2.2.1-bin-hadoop2.7、zeppelin-0.8.1-bin-all、hadoop及hive环境二、步骤:1、下载zeppelin0.8.0及以上版本(支持yarn-cluster模式),下载地址:https://zeppelin.apache.org/download.htmlzeppelin-0.8.1-bin-all.tgz(1)...

2019-10-12 16:44:15 1434

原创 mysql触发器+mysqlduf执行系统命令

背景:文件上传至hdfs,上传成功后插将hdfs文件目录存至mysql数据库,当文件目录成功插入mysql后,触发系统执行shell脚本,将hdfs文件建立solr索引一、lib_mysqludf_sys相关配置1、安装mysql (见mysql安装文档)2、下载lib_mysqludf_sys-master.zip并解压 unziplib_mysqludf_sys-master....

2019-09-11 21:44:32 1078 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除