
技术贴
文章平均质量分 86
Yolanda Ren
这个作者很懒,什么都没留下…
展开
-
【无标题】
hdfs读写流程翻译 2023-02-03 11:36:02 · 128 阅读 · 0 评论 -
线上操作须谨慎!!!
线上操作须谨慎!!!记录一次有关动态分区导致的bug问题描述记录一次线上bug。bug引起的原因很简单,就是对数仓门店维表新增字段的时候,把新增字段放在最后面,因为我们采取的是动态分区的方式,默认以最后一个字段作为分区字段,程序在第二天执行的时候使本来分区的数据存在了脏分区内。正常分区没有数据,关键是程序正常执行,并没有触发报警机制。所以悲剧就这样酿成了。。。。导致相关下游,包括报表,模型,算法,以及维度相关的应用大批量的空数据或者直接报错。问题复盘至于后期怎么处理的,无非是重跑分区,下游任务做重跑原创 2020-07-10 18:24:31 · 1510 阅读 · 0 评论 -
Spark中的checkpoint
spark的checkpoint机制在spark code开发时,有时会用到sparkContext().setCheckpointDir(/hdfspath)来做一个检查点,本文就来聊下为什么要创建这样一个检查点。为什么要做checkpoint?在spark计算里面,如果计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,当然就比较费心能。如果我们将中间计算结果通过cache或者per原创 2020-06-26 15:52:52 · 352 阅读 · 0 评论 -
Hbase分布式实时数据库
Hbase分布式实时数据库了解Hbase分布式实时数据库行键(Row Key)列簇(ColumnFamily)Hbase系统架构HMaster功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入了解Hbase分布式实时数据库Hba原创 2020-06-25 19:05:35 · 1875 阅读 · 0 评论