
Hive
分享大数据学习相关内容,以及在工作中遇到的大数据问题
程序员X小鹿
前互联网大厂程序员/AIGC爱好者/自由职业3年+
展开
-
Hive(十)—— Hive企业级优化
文章目录1. 表的优化1.1 小表Join大表1.2 大表Join大表1.3 MapJoin1.4 Group By1.5 Count(Distinct) 去重统计1.6 笛卡尔积1.7 行列过滤1.8 动态分区调整1.9 分区1.10 分桶2. Fetch抓取3. 本地模式4. 数据倾斜4.1 设置合理的Map数4.2 设置合理的Reduce数5. 并行执行6. 严格模式7. JVM重用8. 推...原创 2020-03-10 17:54:56 · 345 阅读 · 0 评论 -
Hive(九)—— Hive参数配置方式
文章目录Hive参数配置方式1. 配置文件方式2. 命令行参数方式3. 参数声明方式总结Hive参数配置方式1. 配置文件方式默认配置文件:hive-default.xml用户自定义配置文件:hive-site.xml注意:用户自定义配置会覆盖默认配置。另外,Hive也会读入Hadoop的配置,因为Hive是作为Hadoop的客户端启动的,Hive的配置会覆盖Hadoop的配置。配置文件...原创 2020-03-09 18:33:20 · 2641 阅读 · 0 评论 -
Hive(八)—— 压缩和存储
文章目录1. 压缩1.1 Hodoop压缩1.2 Map输出阶段压缩1.3 Reduce输出阶段压缩2. 存储2.1 文件存储格式2.2 主流文件存储格式对比3. 压缩和存储结合1. 压缩1.1 Hodoop压缩详见 Hadoop(十二)—— Hadoop压缩1.2 Map输出阶段压缩开启map输出阶段压缩,可以减少job中map和Reduce task间数据传输量。具体配置如下:...原创 2020-03-09 18:28:39 · 209 阅读 · 0 评论 -
Hive(七)—— 函数
文章目录1. 系统自带的函数2. 自定义函数2.1 开发自定义函数2.2 测试开发的自定义函数1. 系统自带的函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;2. 自定义函...原创 2020-03-09 18:07:02 · 154 阅读 · 0 评论 -
Hive(六)—— 查询
文章目录1. 基本查询2. Where语句3. 分组4. Join4.1 内连接(join)4.2 左外连接(left join)4.3 右外连接(right join)4.4 满外连接(full join)4.5 多表连接4.6 笛卡尔集5. 排序5.1 全局排序(Order by)5.2 内部排序(Sort By)5.3 分区排序(Distribute By)5.4 Cluster By6. ...原创 2020-03-09 17:47:19 · 292 阅读 · 0 评论 -
Hive(五)—— Hive数据导入/导出
文章目录1. 数据导入1.1 方式一:load data方式向表中装载数据1.2 方式二:通过查询语句向表中插入数据(Insert)1.3 方式三:查询语句中创建表并加载数据(As Select)1.4 方式四:创建表时通过location制定加载数据路径1.5 方式五:Import数据导指定Hive表中2. 数据导出2.1 方式一:insert导出2.2 方式二:Hadoop命令导出到本地2.3...原创 2020-03-09 17:34:12 · 403 阅读 · 0 评论 -
Hive(四)—— DDL数据定义
本文介绍Hive DDL数据定义相关操作。包括数据库的创建、删除、修改、查询,还有普通表、分区表的创建,删除、修改、查询。原创 2020-03-09 17:27:50 · 741 阅读 · 0 评论 -
Hive(三)—— Hive数据类型
文章目录1. 基本数据类型2. 集合数据类型3. 类型转化1. 基本数据类型NOHive数据类型Java数据类型长度例子1TINYINTbyte1byte有符号整数202SMALINTshort2byte有符号整数203INTint4byte有符号整数204BIGINTlong8byte有符号整数205BOOL...原创 2020-03-09 17:17:25 · 261 阅读 · 0 评论 -
Hive(一)—— Hive入门
文章目录1. Hive是什么2. Hive的优缺点2.1 优点2.2 缺点3. Hive架构原理4. Hive和数据库比较4.1 查询语言4.2 数据存储位置4.3 数据更新4.4 索引4.5 执行4.6 执行延迟4.7 可扩展性4.8 数据规模1. Hive是什么Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL/SQ...原创 2020-03-09 17:04:54 · 174 阅读 · 0 评论