
Hadoop
文章平均质量分 70
FunnyPrince_
种一棵树最好的时间是十年前,其次是现在,我要开始种树啦。
展开
-
数据仓库之电商数仓-- 5、即席查询Kylin
目录一、Kylin1.1 Kylin简介1.1.1 Kylin定义1.1.2 Kylin相关术语1.1.3Kylin架构1.1.4 Kylin特点一、Kylin1.1 Kylin简介1.1.1 Kylin定义Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.1.2 Kylin相关术语Data Warehouse (数据原创 2021-10-29 23:20:07 · 1585 阅读 · 0 评论 -
大数据之HBase部署
一、HBase简介1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2 HBase数据模型逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional map。1.2.1 HBase逻辑结构1.2.2 HBase 物理存储结构1.2.3 数据模型Name Space命名空间,类似于关系型数据库的 Datab原创 2021-10-28 20:20:41 · 467 阅读 · 0 评论 -
数据仓库之电商数仓-- 4、可视化报表Superset
目录一、Superset入门1.1 Superset概述1.2 Superset应用场景二、Superset安装及使用2.1 安装Python环境2.1.1 安装Miniconda2.1.2 创建Python3.7环境2.2 Superset部署一、Superset入门1.1 Superset概述Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。1.2 Superset应用场景由于S原创 2021-10-26 21:38:21 · 1143 阅读 · 0 评论 -
数据仓库之电商数仓-- 3.4、电商数据仓库系统(ADS层)
#!/bin/bashAPP=gmallif [ -n "$2" ] ;then do_date=$2else echo "请传入日期参数" exitfidws_visitor_action_daycount="insert overwrite table ${APP}.dws_visitor_action_daycount partition(dt='$do_date')select t1.mid_id, t1.brand, t1.model原创 2021-10-24 17:45:46 · 2488 阅读 · 0 评论 -
大数据之Azkaban部署
目录一、Azkaban概论1.1 为什么需要工作流调度系统1.2 常见工作流调度系统1.3 Azkaban 与 Oozie 对比二、Azkaban集群安装2.1 集群模式安装2.1.1 安装包准备2.1.2 配置 MySQL2.1.3 配置 Executor Server2.1.4 配置 Web Server2.2 Work Flow 案例2.2.1 HelloWorld2.2.2 作业依赖案例2.2.3 自动失败重试案例2.2.4 手动失败重试案例三、Azkaban进阶3.1 JavaProcess 作原创 2021-10-23 16:51:08 · 1305 阅读 · 0 评论 -
记录执行hivesql时报org.apache.hadoop.hdfs.BlockMissingException:Could not obtain block错误
在执行hive sql时明明已经插入了数据,可是过了一会儿查询的时候数据表为空,而且报以下错误,以前也经常遇到,搞得我一直重新插入数据反反复复,今天终于找到了root cause⬇️⚠️报错:org.apache.hadoop.hdfs.BlockMissingException:Could not obtain block: BP-1094756810-192.168.10.102-1623427145615:blk_1073755935_15114 file=/warehouse/gmall/ads原创 2021-10-20 22:19:16 · 2701 阅读 · 0 评论 -
数据仓库之电商数仓-- 3.3、电商数据仓库系统(DWT层)
目录八、数仓搭建-DWT层8.1 访客主题8.2 用户主题8.3 商品主题8.4 优惠券主题8.5 活动主题8.6 地区主题8.7 DWT层首日数据导入脚本8.8 DWT层每日数据导入脚本八、数仓搭建-DWT层8.1 访客主题建表语句DROP TABLE IF EXISTS dwt_visitor_topic;CREATE EXTERNAL TABLE dwt_visitor_topic( `mid_id` STRING COMMENT '设备id', `brand` STR原创 2021-10-20 00:33:17 · 741 阅读 · 0 评论 -
数据仓库之电商数仓-- 3.2、电商数据仓库系统(DWS层)
目录七、数仓搭建-DWS层7.1 系统函数7.1.1 nvl函数7.1.2 日期处理函数7.1.3 复杂数据类型定义7.2 DWS层7.2.1 访客主题7.2.2 用户主题7.2.3 商品主题7.2.4 优惠券主题7.2.5 活动主题7.2.6 地区主题7.2.7 DWS层首日数据装载脚本7.2.8 DWS层每日数据装载脚本七、数仓搭建-DWS层7.1 系统函数7.1.1 nvl函数基本语法:NVL(表达式1,表达式2)如果表达式1为空值,NVL返回值为表达式2的值,否则返回表达式1的值。该函原创 2021-10-20 00:30:28 · 799 阅读 · 0 评论 -
数据仓库之电商数仓-- 3.1、电商数据仓库系统(ODS层、DIM层、DWD层)
目录一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名1.3.2 脚本命名1.3.3 表字段类型二、数仓理论2.1 范式理论2.1.1 范式概念2.1.2 函数依赖2.1.3 三范式区分2.2 关系建模与维度建模2.2.1 关系建模2.2.2 维度建模⭐️2.3 维度表和事实表⭐️2.3.1 维度表2.3.2 事实表2.4 维度模型分类2.5 数据仓库建模⭐️????2.5.1 ODS层2.5.2 DIM层和DWD层2.5.3 DWS层与DWT层2.5.4原创 2021-10-20 00:14:00 · 11173 阅读 · 8 评论 -
记录hive sql报错,return code1和return code2解决方法
执行hive sql语句的时候非常容易出现return code 1、return code 2、return code 3的情况,我就遇到了很多次,code3在某次意外中得以解决 但是引发了code2 和code1, 有些error莫名其妙的出现又莫名其妙的消失,可它还会带来更多的error。⚠️报错:[2021-10-19 19:45:38] [08S01][2] Error while processing statement: FAILED: Execution Error, return co原创 2021-10-19 22:39:01 · 16782 阅读 · 2 评论 -
大数据电商数仓--记录各种奇奇怪怪的issue
⚠️报错:hive on spark正常org.apache.hadoop.hive.ql.parse.SemanticException:Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session 65727339-603a-4fca-9df2-2f9d30e4b4a5⚠️报错:hive格式化报错Er原创 2021-10-14 19:47:32 · 1369 阅读 · 0 评论 -
记录hiveonspark:Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask
问题描述:在部署hive on spark,测试时报错,执行建表操作成功,但是插入insert出现以下错误:Failed to execute spark task, with exception ‘org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 2df0eb9a-15b4-4d81-aea1-24b12094bf44)’FAILED: Execution原创 2021-10-05 17:56:44 · 13402 阅读 · 12 评论 -
数据仓库之电商数仓-- 2、业务数据采集平台
目录1).2).3).4).5).6).7).8).9).原创 2021-10-04 18:00:59 · 848 阅读 · 0 评论 -
数据仓库之电商数仓-- 1、用户行为数据采集
加油干hhhhhh原创 2021-10-01 22:57:06 · 3768 阅读 · 3 评论 -
Hadoop--Yarn常用命令 与 生产环境核心配置参数
写目录Yarn常用命令二级目录三级目录Yarn常用命令二级目录三级目录原创 2021-09-17 20:59:13 · 482 阅读 · 0 评论 -
Yarn调度器和调度算法(FIFO、容量调度器 与 公平调度器)
.。原创 2021-09-16 22:30:46 · 7321 阅读 · 2 评论 -
hadoop--Yarn资源调度器的基础架构、工作机制 与 作业提交全过程
目录Yarn资源调度器二级目录三级目录Yarn资源调度器二级目录三级目录原创 2021-09-16 20:36:22 · 415 阅读 · 0 评论 -
Hadoop数据压缩 与 数据清洗ETL
目录一、压缩概述优缺点原则二、MR 支持的压缩编码三、压缩方式选择Gzip压缩Bzip2 压缩Lzo压缩Snappy压缩压缩位置选择四、压缩参数配置五、压缩案例一、压缩概述优缺点优点:减少磁盘IO、减少磁盘存储空间;缺点:增加CPU开销。原则运算密集型的job,少用压缩;IO密集型的job,多用压缩。二、MR 支持的压缩编码压缩算法对比压缩性能比较三、压缩方式选择压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片。Gzip压缩优原创 2021-09-14 22:48:40 · 423 阅读 · 0 评论 -
hadoop--Map Join
。。。。原创 2021-09-14 21:16:16 · 325 阅读 · 0 评论 -
hadoop--Reduce Join
。。。原创 2021-09-11 22:22:54 · 294 阅读 · 0 评论 -
hadoop--Shuffle机制
…原创 2021-09-09 20:49:08 · 429 阅读 · 0 评论 -
hadoop--MapReduce框架原理
目录MapReduce框架原理InputFormat数据输入切片与MapTask并行度决定机制MapReduce框架原理InputFormat数据输入切片与MapTask并行度决定机制1.问题:MapTask的并行度决定Map阶段的任务处理并发度,进而影响整个job的处理速度。但是相对于1G数据启动8个MapTask,可以提高集群的并发处理能力。1k的数据数据启动8个MapTask不一定会提高集群性能;MapTask并行任务是否越多越好?哪些因素影响了MapTask并行度?2.MapTask原创 2021-09-08 22:04:40 · 314 阅读 · 1 评论 -
Hadoop--MapReduce_Hadoop序列化
目录序列化概述什么是序列化为什么要序列化为什么不使用Java的序列化自定义bean对象实现序列化接口(Writable)实现bean对象序列化步骤序列化案例序列化概述什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中对象。为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另原创 2021-09-08 20:27:29 · 126 阅读 · 0 评论 -
hadoop--MapReduce概述
目录MapReduce定义MapReduce优缺点优点缺点MapReduce核心编程思想的概念,但是大得多,默认128MB,与单一磁盘上的文件系统相似,HDFS上的文件也被划分为块大小的多个分块(chunk),作为独立的存储单元。但与面向单一磁盘的文件系统不同的是,HDFS中小于一个块大小的文件不会占据整个块的空间(如一个文件只有1MB存储在128MB的块中,文件只使用1MB的磁盘空间,而不是128MB)。写过程数据流–>chunk(512原创 2021-08-31 00:26:15 · 715 阅读 · 0 评论 -
Mac与centos的ip配置
1.如图,查看Mac下Vmnet的gateway和netmask地址:cat /Library/Preferences/VMware\ Fusion/vmnet8/nat.conf2.打开虚拟机,使用以下命令打开配置文件:vim /etc/sysconfig/network-scripts/ifcfg-ens33如图,修改以下内容:3.使用以下命令修改hostname:vim /etc/hostname4.如图,使用以下命令修改hosts:vim /etc/hosts修改完h原创 2021-08-18 01:04:29 · 411 阅读 · 0 评论 -
hadoop--HDFS搭建客户端API环境
前提:搭建Maven环境==>windows下hadoop-3.2.2的安装与配置==>HDFS搭建客户端API环境:1.在IDEA中创建一个Maven工程HDFSClient,New Project-Maven-Next-Artifact Coordinates:2.导入相应的依赖,打开pom.xml,在<dependencies></dependencies>中添加如下代码: <dependencies> <!--ha原创 2021-06-22 23:04:22 · 528 阅读 · 0 评论 -
hadoop--windows环境配置hadoop-3.2.2
客户端环境准备1.JDK安装、hadoop-3.2.2安装;2.hadoop windows的插件;安装配置1.管理员身份解压hadoop安装包至 “D:\develop\hadoop-3.2.2” 路径下;2.用工具中的bin目录替换hadoop中的bin目录,主要是原创 2021-06-21 21:35:28 · 1122 阅读 · 0 评论 -
hadoop--HDFS的Shell相关操作
目录基本语法命令常用命令实操1. 准备工作2. 上传3. 下载4. HDFS直接操作基本语法hadoop fs [选项] / hdfs dfs [选项]命令[xiaobai@hadoop102 ~]$ hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <sr原创 2021-06-17 23:31:29 · 255 阅读 · 2 评论 -
hadoop--HDFS概述
文章目录HDFS概述1.HDFS产出背景及定义2.HDFS优缺点HDFS优点HDFS缺点3. HDFS组成架构NameNode (nn)DataNodeClientSecondary NameNode4. HDFS文件块大小(面试)HDFS/Yarn/MapReduce概述==>HDFS概述1.HDFS产出背景及定义1). HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有数据的情况下,那么就会分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器原创 2021-06-16 00:20:57 · 193 阅读 · 2 评论 -
hadoop--完全分布式运行模式
一、 准备工作:1.3x客户机(关闭防火墙、静态IP、主机名称)Clone3x客户机2.安装JDK3.安装Hadoop4.配置环境变量JDK/Hadoop安装与环境变量的配置5.配置集群6.单点启动7.配置ssh8.群起并测试集群...原创 2021-06-15 22:29:58 · 237 阅读 · 0 评论 -
hadoop--常见错误及解决方法
1.防火墙没关闭/没启动Yarn:INFO clientRMProu: Connecting to ResourceManger at hadoop108/192. 168.10.108:80322.主机名称配置错误3.IP地址配置错误4.ssh没有配置好5.root用户和xiaobai等两个用户启动集群不统一6.配置文件修改有误7.不识别主机名称解决方法:a. 在/etc/hosts文件中添加192.168.10.102 hadoop102;b. 主机名称不要起hadoop h原创 2021-06-15 22:22:18 · 1511 阅读 · 1 评论 -
hadoop--集群时间同步(可不同步)
集群时间同步如果服务器在公网环境(能连接外网),可以不采用集群时间同步,因为服务器会定期和公网时间进行校准;如果服务器在内网环境,必须要配置集群时间同步,否则时间久了会产生时间偏差,导致集群执行任务时间不同步。1.需求找一个机器,作为时间服务器,所有的及其与这台集群时间进行定时同步,生产环境根据任务对时间的准确度要求周期同步。2.时间服务器配置(必须root用户)1). 查看所有节点ntpd服务状态和开机自启动状态:[xiaobai@hadoop102 ~]$ sudo systemctl原创 2021-06-15 22:01:15 · 707 阅读 · 0 评论 -
hadoop--hadoop集群常用脚本
集群启动/停止方式总结各个模块分开启动/停止(前提配置ssh)常用1). 整体启动/停止HDFS:start-dfs.sh/stop-dfs.sh2).整体启动/停止YARN:start-yarn.sh/stop-yarn.sh2.各个服务组建注意启动/停止1). 分别启动/停止HDFS组件:hdfs --daemon start/stop namenode/datanode/secondarynamenode2). 启动/停止YARN:yarn --daemon start原创 2021-06-15 21:54:19 · 1639 阅读 · 1 评论 -
hadoop--日志聚集功能的配置
配置日志的聚集日志聚集概念:应用运行完成后,将程序运行日志信息上传到HDFS系统上。日志聚集功能好处:可以方便地查看到程序运行详情,方便开发调试。tips: 开启日志聚集功能,需要重新启动NodeManager、ResourceManager和HistoryServer。步骤:1). 配置yarn-site.xml:[xiaobai@hadoop102 hadoop]$ vim yarn-site.xml在该文件里增加如下配置: <!--开启日志聚集功能-->原创 2021-06-15 00:06:48 · 616 阅读 · 3 评论 -
记录hadoop3.2.2出现Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster问题
问题: hadoop3.2.2运行集群自带wordcount功能时出现以下错误:[xiaobai@hadoop102 hadoop]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar wordcount /wcinput /wcoutputError: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster原创 2021-06-13 23:19:59 · 409 阅读 · 2 评论