
大数据数仓
文章平均质量分 89
老姜的数据江湖
大数据老家伙,看着大数据发展史,致力于帮助更多小伙伴理解大数据领域。
展开
-
一个完整的关于数仓构建的流程
介绍大数据数仓构建全流程,对整体0-1构建数仓提供整体思路。原创 2022-09-26 11:17:59 · 1558 阅读 · 1 评论 -
大数据调度平台oozie、azkaban、dolphinscheduler对比
大数据调度平台目前多样化,如何选择适合自己公司得调度平台,老姜给大家罗列三种调度平台性能对比。DolphinSchedulerAzkabanOozie定位解决数据处理流程中错综复杂的依赖关系为了解决Hadoop的任务依赖关系问题管理Hdoop作业(job)的工作流程调度管理系统任务类型支持支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、su原创 2021-11-09 16:07:14 · 6647 阅读 · 0 评论 -
大数据hive性能调优详解系列之hive架构层面调优_数仓工程师必备hive调优方案
大数据技术框架中,hive组件作为数仓工程师必不可缺少的计算框架组件。本篇文章是hive性能调优详解系列之第三篇hive语法层面调优。上两篇分别为hive 建设表层面调优hive 语法和参数层面调优更多内容请关注哔哩:老姜的数据江湖,微信公众号同步;Hive架构层面1.启用本地抓取Hive的某些SQL语句需要转换成MapReduce的操作,某些SQL语句就不需要转换成MapReduce操作,例如:1.只是select *的时候2.where条件针对分区字段进行筛选过滤时3.带有limi原创 2021-10-28 18:51:06 · 504 阅读 · 0 评论 -
hive性能调优详解系列之hive语法和参数层面调优_数仓工程师必备hive调优方案
hive作为数仓工程师必不可缺少的计算组件,在工作中经常遇到一些调优问题,本篇文章是hive性能调优详解系列之第二篇hive语法层面调优。上一篇可点击hive建表设计层面调优一.hive语法层面和参数调优hive语法和参数调优将是hive调优一大重点,并能间接解决数据倾斜问题,同事提升运行效率也是重中之重。1.1查看hive执行计划Hive的SQL语句在执行之前需要将SQL语句转换成MapReduce任务,因此需要了解具体的转换过 程,可以在SQL语句中输入如下命令查看具体的执行计划。##查看执原创 2021-10-27 16:57:21 · 2003 阅读 · 0 评论 -
Hive性能调优详解系列之hive建表设计层面调优_数仓工程师必备hive调优方案
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的从来不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、MapReduce分配不合理等等。原创 2021-10-26 14:45:46 · 995 阅读 · 0 评论 -
大数据数仓建设流程方案,数仓设计流程,适用于实际工作场景
大数据数仓概念学术上:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的( Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理、运营决策。技术上:不可更新的,反映历史变化原创 2021-10-25 15:25:03 · 1496 阅读 · 0 评论