hive
文章平均质量分 91
dwjf321
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive 从 0 到 1 学习 —— 第十章 Hive 企业级调优
文章目录1. Fetch抓取2. 本地模式3. 表的优化3.1 小表、大表Join3.2 大表Join大表3.2.1 空KEY过滤3.2.2 空 key 转换3.3 MapJoin3.3.1 开启MapJoin参数设置3.3.2 MapJoin 工作机制3.3.3 案例实操3.4 Group By3.5 Count(Distinct) 去重统计3.6 笛卡尔积3.7 行列过滤3.8 动态分区调整3.8.1 开启动态分区参数设置3.8.2 案例实操3.9 分桶3.10 分区4. 数据倾斜4.1 合理设置 Ma原创 2021-01-16 23:15:19 · 2196 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第八章 Hive 查询函数
文章目录1. 系统内置函数2. 常用函数2.1 指标函数2.2 collect_set 函数2.3 日期处理函数2.4 字符串连接函数2.5 json 解析函数3. 其他常用查询函数3.1 空字段赋值3.2 CASE WHEN3.3 行转列3.4 列转行3.5 窗口函数3.6 Rank4. 自定义函数5. 自定义 UDF 函数6. 自定义 UDTF 函数6.1 自定义 UDTF 步骤6.2 具体实现 1. 系统内置函数 查看系统自带的函数 hive> show functions; 显示自带原创 2021-01-16 23:13:00 · 1924 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第七章 Hive 查询
文章目录1.基本查询(Select…From)1.1 全表和特定列查询1.2 列别名1.3 算术运算符1.4 常用函数1.4.1 指标函数1.4.2 collect_set 函数1.4.3 日期处理函数1.4.4 字符串连接函数1.4.5 json 解析函数1.5 Limit语句2. Where语句2.1 比较运算符(Between/In/ Is Null)2.2 Like 和 RLike2.3 逻辑运算符(And/Or/Not)3. 分组3.1 Group By 语句3.2 Having 语句4. Joi原创 2021-01-16 23:12:06 · 1012 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第六章 Hive DML 语句定义
文章目录1. 导入数据1.1 向表中装载数据(Load)1.1.1 语法1.1.2 实操案例1.1.2.1 创建一张表1.1.2.2 加载本地文件到 hive1.1.2.3 加载HDFS文件到hive中1.1.2.4 加载数据覆盖表中已有的数据1.2 通过查询项表中插入数据(Insert)1.3 查询语句中创建表并加载数据(As Select)1.4 创建表时通过 Location 指定加载数据路径1.5 Import 数据到指定 Hive 中2. 数据导出2.1 Insert导出2.2 Hadoop命令导原创 2021-01-16 23:08:38 · 615 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第五章 Hive DDL 语句定义
文章目录1. 创建数据库2.1 显示数据库2.2 查看数据库详情2.3 切换当前数据库3. 修改数据库4. 删除数据库5. 创建表5.1 建表语法5.2 字段解释说明5.3 管理表(内部表)5.3.1 理论5.3.2 案例实操5.4 外部表5.4.1 理论5.4.2 管理表和外部表的使用场景5.4.3 案例操作5.5 管理表与外部表相互转换6. 分区表6.1 分区表基本操作6.2 二级分区表7. 修改表7.1 修改表名7.2 增加、修改和删除表分区7.3 增加/修改/替换列信息8. 删除表 1. 创建数据库原创 2021-01-16 23:07:48 · 680 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第四章 Hive 数据类型
文章目录1. 基本数据类型2. 集合数据类型3. 类型转化 1. 基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN boolean 布尔类型,true或者false TRUE FALSE FLOAT float 单精度浮点数 3.14159原创 2021-01-16 23:06:18 · 570 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第三章 Hive 运行引擎 Tez
文章目录1. Tez 安装1.1 安装包准备2. 在 Hive 中配置 Tez3. 配置 Tez4. 上传 Tez 到集群5. 测试6. 小结 Tez 是一个 Hive 的运行引擎,性能优于 MR。为什么呢?看下图: 用 Hive 直接编写 MR 程序,假设有四个有依赖关系的 MR 作业,上图中,绿色是 Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到 HDFS。 Tez 可以将多个有依赖的作业转换为一个作业,这样只需写一次 HDFS,且中间节点较少,从而大大提升作业的计算性能。 1. T原创 2021-01-16 23:05:05 · 647 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第二章 Hive 安装
文章目录1. Hive 安装地址2. Hive 安装部署2.1 Hive 安装及配置2.2 Hadoop 集群配置2.3 Hive基本操作3. 将本地文件导入 Hive 案例3.1 数据准备3.2 Hive 实际操作3.3 遇到的问题4. Hive 元数据配置到 MySql4.1 驱动拷贝4.2 配置 Metastore 到 MySql4.3 多窗口启动 Hive 测试5. HiveJDBC 访问5.1 启动 hiveserver2 服务5.2 连接 hiveserver25.3 DBeaver 连接 hi原创 2021-01-16 23:03:31 · 640 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第一章 Hive 入门
文章目录1. 什么是 Hive2. Hive 的优缺点2.1 优点2.2 缺点3. Hive 的架构原理4. Hive 和数据库比较4.1 查询语言4.2 数据存储位置4.3 数据更新4.4 索引4.5 执行4.6 执行延迟4.7 可扩展性4.8 数据规模 1. 什么是 Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapRed原创 2021-01-16 23:01:06 · 2648 阅读 · 0 评论
分享