
小坏讲大数据(hive) 第三阶段
文章平均质量分 91
以实战为线索、学习第三个阶段Hive
小坏讲微服务
熟悉各种微服务架构、一个菜鸟级别的后端小白、啥时候月薪过万呀、让你学习不在发愁的网站:https://www.e404e.cn
展开
-
大数据之Hive 实战 完整使用(第十一章)
大数据之Hive 实战 完整使用一、需求描述二、数据结构1)视频表2)用户表三、准备表1)需要准备的表2)创建原始数据表2)创建 orc 存储格式带 snappy 压缩的表四、业务分析、1、统计视频观看数 Top102、统计视频类别热度 Top103、统计出视频观看数最高的 20 个视频的所属类别以及类别包含Top20 视频的个数4、统计视频观看数 Top50 所关联视频的所属类别排序5、统计每个类别中的视频热度 Top10,以 Music 为例6、统计每个类别视频观看数 Top107、统计上传视频最多的用原创 2021-10-08 11:58:49 · 562 阅读 · 1 评论 -
大数据之Hive 企业级调优 完整使用(第十章)
Hive 企业级调优 完整使用一、执行计划(Explain)1)基本语法2)案例实操(1)查看下面这条语句的执行计划(2)查看详细执行计划二级目录三级目录一、执行计划(Explain)1)基本语法EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query2)案例实操(1)查看下面这条语句的执行计划没有生成 MR 任务的hive (default)> explain select * from emp;ExplainSTAGE D原创 2021-09-29 12:21:28 · 256 阅读 · 0 评论 -
大数据之Hive 压缩和存储 完整使用(第九章)
Hive 压缩和存储 完整使用一、 Hadoop 压缩配置1.1 MR 支持的压缩编码1.2 查看自己的压缩方式1.3 压缩参数配置2.0 开启 Map 输出阶段压缩(MR 引擎 案例实操)(1)开启 hive 中间传输数据压缩功能(2)开启 mapreduce 中 map 输出压缩功能(3)设置 mapreduce 中 map 输出数据的压缩方式(4)执行查询语句3.0 开启 Reduce 输出阶段压缩(案例实操)(1)开启 hive 最终输出数据压缩功能(2)开启 mapreduce 最终输出数据压缩(原创 2021-09-27 10:41:32 · 186 阅读 · 0 评论 -
大数据之Hive 函数 完整使用(第八章)
大数据之Hive 函数一、系统内置函数1)查看系统自带的函数2)显示自带的函数的用法3)详细显示自带的函数的用法二、常用内置函数(空字段赋值)1)函数说明2)数据准备3)查询方式(1)4)查询(2)三、CASE WHEN THEN ELSE END1)数据准备2)需求3)创建本地 emp_sex.txt,导入数据4)创建 hive 表并导入数据5)按需求查询数据四、行转列1)相关函数说明2)数据准备3)需求4)创建本地 constellation.txt,导入数据5)创建 hive 表并导入数据6)按需求查原创 2021-09-14 18:46:05 · 2739 阅读 · 0 评论 -
大数据之Hive 分区表和分桶表 完整使用(第七章)
Hive 分区表和分桶表必须会一、分区表二、分区表基本操作1、引入分区表(需要根据日期对日志进行管理, 通过部门信息模拟)2、创建分区表语法3、加载数据到分区表中(1) 数据准备(2) 加载数据(3)查询分区表中数据(4)增加分区(5)删除分区(6)查看分区表有多少分区(7) 查看分区表结构三、二级分区1)创建二级分区表2)正常的加载数据3)把数据直接上传到分区目录上,让分区表和数据产生关联的三种方式(1)方式一:上传数据后修复(2)方式二:上传数据后添加分区(3)方式三:创建文件夹后 load 数据到分原创 2021-09-14 17:49:22 · 1495 阅读 · 0 评论 -
大数据之Hive 查询之SQL的 完整使用(第六章)
大数据之Hive 查询之SQL的 完整使用一 在线文档1、地址连接2、查询语句语法:二 基本查询(Select…From)1、全表和特定列查询0)数据准备1)全表查询2)选择特定列查询三 列别名1)重命名一个列2)便于计算3)紧跟列名,也可以在列名和别名之间加入关键字‘AS’ 4)案例实操四 算术运算符五 常用函数1)求总行数(count)2)求工资的最大值(max)3)求工资的最小值(min)4)求工资的总和(sum)5)求工资的平均值(avg)六 Limit 语句七 Where 语句1)使用 WHERE原创 2021-09-09 18:04:19 · 3362 阅读 · 2 评论 -
大数据之Hive DML 数据操作 完整使用(第五章)
大数据之Hive DML 数据操作 完整使用一、数据导入1、向表中装载数据(Load)1)语法2)实操案例二、通过查询语句向表中插入数据(Insert)1)创建一张表2)基本插入数据3)基本模式插入(根据单张表查询结果)4)多表(多分区)插入模式(根据多张表查询结果)三、创建表时通过 Location 指定加载数据路径1)上传数据到 hdfs 上2)创建表,并指定在 hdfs 上的位置3)查询数据四、 Import 数据到指定 Hive 表中五、数据导出1、Insert 导出1)将查询的结果导出到本地2)将原创 2021-09-09 16:22:21 · 193 阅读 · 0 评论 -
大数据之Hive DDL 数据定义 完整使用(第四章)
大数据之Hive DDL 数据定义一、创建数据库1、创建一个数据库2、避免要创建的数据库已经存在错误3、创建一个数据库,指定数据库在 HDFS 上存放的位置二、查询数据库1、显示数据库1)显示数据库2)过滤显示查询的数据库2、查看数据库详情1)显示数据库信息2) 切换数据库3) 过滤显示查询的数据库4)显示数据库信息5)查数据库详细信息三、修改数据库四、删除数据库1)删除空数据库2)如果删除的数据库不存在,最好采用 if exists 判断数据库是否存在3)如果数据库不为空,可以采用 cascade 命令,原创 2021-09-09 11:46:54 · 290 阅读 · 0 评论 -
大数据之Hive 数据类型 完整使用(第三章)
大数据之Hive 数据类型一、基本数据类型2、集合数据类型案例实操三、类型转化1、概述2、隐式类型转换规则如下3、可以使用 CAST 操作显示进行数据类型转换一、基本数据类型对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不 过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。2、集合数据类型Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Array原创 2021-09-01 16:16:39 · 181 阅读 · 0 评论 -
大数据之Hive 集群搭建 完整使用(第二章)
大数据之Hive 集群搭建 完整使用一、Hive 安装地址1、Hive 官网地址2、文档查看地址3、下载地址4、github 地址二、Hive 安装部署1、把下载的hive 包上传2、解压3、修改 apache-hive-3.1.2-bin.tar.gz 的名称为 hive-3.1.24、修改/etc/profile.d/my_env.sh,添加环境变量5、解决日志 Jar 包冲突6、初始化元数据库三、启动并使用 Hive1、启动 Hive2、使用 Hive3、在/tmp/atguigu 目录下监控 hiv原创 2021-09-01 11:52:58 · 5001 阅读 · 0 评论 -
大数据之Hive 基本概念 完整使用(第一章)
大数据之Hive 基本概念一、什么是 Hive1、hive 简介2、Hive 本质3、Hive 的优缺点1)优点2)缺点4、Hive 架构原理1)用户接口:Client2)元数据:Metastore3)Hadoop4)驱动器:Driver5、Hive 和数据库比较6、查询语言7、数据更新8、执行延迟9、数据规模一、什么是 Hive1、hive 简介Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件原创 2021-09-01 11:02:46 · 212 阅读 · 0 评论 -
大数据之Hive 完整使用 (搭建过程遇到的问题)
一、没有mysql包下载地址:mysql安装包二、没有Hive文档下载地址:hive word三、hive初始化报错(ZLjava/lang/String;Ljava/lang/Object)1、ZLjava/lang/String;Ljava/lang/Object【bigdata@master hive】$ bin/schematool -dbType derby -initSchemaException in thread main java.lang.NoSuchMethodError原创 2021-09-01 10:43:38 · 1704 阅读 · 5 评论