
Hive
takeuheart
这个作者很懒,什么都没留下…
展开
-
Hive优化整理
Hive优化整理压缩格式 常见的压缩格式有Sequence File、RC、ORC、Parquet。生产环境中hive一般用orc,spark一般用parquet,snappy配合parquet性能最高。注意点1)orc格式的表不能通过load data导入数据2)Sequence 可分割,与hadoop文件兼容3)ORC快速存取,列压缩Hive函数内置函数1.NVL( value,default_value) ,给值为 NULL 的数据赋值2.CASE WHEN THEN ELSE原创 2020-07-24 10:01:40 · 369 阅读 · 0 评论 -
Hive函数与调优
文章目录Hive函数与调优函数系统内置函数自定义函数1.UDF函数2.UDTF函数调优开启map阶段输出压缩开启reducer阶段的数据压缩文件存储格式测试存储和压缩企业级调优Fetch抓取本地模式表的优化1.小表、大表join2.大表join大表3.MapJoin(小表join大表)4.Group By5.Count(Distinct)去重统计6.笛卡尔积7.行列过滤8.动态分区调整合理设置Ma...原创 2019-11-30 20:45:26 · 423 阅读 · 0 评论 -
Hive的CRUD
Hive的CRUDDDL 数据定义创建数据库1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法) hive (default)> cr...原创 2019-11-28 19:13:00 · 860 阅读 · 0 评论 -
Hive安装与客户端命令
Hive安装与客户端命令Hive 基本概念Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质是:将 HQL 转化成 MapReduce 程序Hive 安装1.Hive 官网地址 http://hive.apache.org/2.文档查看...原创 2019-11-24 19:42:33 · 1610 阅读 · 0 评论