- 博客(369)
- 收藏
- 关注
原创 DWS层新增指标处理方案
业务逻辑确认: 与业务方或需求方深入沟通,清晰定义新指标的计算公式、统计口径(维度、粒度)、业务含义、是否允许为空、默认值是什么。数据来源确认: 确定计算该指标所需的最细粒度数据来源:是否完全依赖现有 DWS 层数据即可计算?(最理想情况,影响最小)是否需要依赖 DWD (Data Warehouse Detail) 层的明细数据?(需要向下追溯)是否需要依赖 ODS (Operational Data Store) 层或其他外部数据源?(影响较大,需评估数据质量和接入)历史数据要求。
2025-06-12 18:11:31
645
原创 记一次 Starrocks be 内存异常宕机
突发性 be 内存飙高,直至被系统 kill 掉,be 内存如下:其中指标打满,重启也是如此看到被 kill 了每次重启 be 都会去拉起 tablet: 3544744及。
2025-05-29 16:20:53
713
原创 StarRocks 异常 Table creation timed out.
【代码】StarRocks 异常 Table creation timed out.
2025-04-22 16:16:48
162
原创 SparkSQL query optimization
Spark, in recent years, has become the go-to distributed computation framework for a lot of different use cases. From only providing map-reduce funtionalities, it has introduced other modules: from machine learning, to graph data, to SQL.Today we will focu
2025-03-02 17:56:54
1083
转载 揭露数据不一致的利器 —— 实时核对系统
随着企业业务发展,以及微服务化大趋势下单体服务的拆分,服务间的通信交互越来越多。与单体服务不同,微服务间的数据往往需要通过额外的手段来保障一致性,例如事务消息、异步任务补偿等。除了从机制上最大程度保障以外,如何观测并及时发现数据不一致也非常重要。本文介绍 Shopee Financial Products 团队设计和开发的实时核对系统(Real-time Checking System)
2025-03-02 11:02:17
138
翻译 Recommender System using ALS in Pyspark
【代码】Recommender System using ALS in Pyspark。
2024-09-12 01:59:19
201
翻译 How to develop an enterprise data warehouse from scratch to foster a data-driven culture
data warehouse
2024-06-21 17:16:36
156
原创 StarRocks 进行 streamload 导入本地数据 NULL value in non-nullable column
starrocks streamload
2024-03-02 14:23:21
978
原创 docker devicemapper: Error running DeleteDevice dm_task_run failed
docker devicemapper 删除容器异常
2023-11-25 22:06:46
1336
原创 NFS 挂载异常 Output: mount: wrong fs type, bad option, bad superblock on xxx
nfs 挂载异常
2023-10-15 16:44:24
374
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人