
Hive基础与总结
文章平均质量分 95
分享Hive学习文章和资料。
张飞的猪
点关注,不迷路,一起沉浸在数据之中。互关必回!!
展开
-
Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南
在Tez上优化Hive查询无法采用一刀切的方法。查询性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试过程中,应评估和验证配置参数及任何SQL修改。建议在工作负载的性能测试过程中一次只进行一项更改,并最好在开发环境中评估调优更改的影响,然后再在生产环境中使用。原创 2024-06-20 19:44:08 · 1486 阅读 · 0 评论 -
第七节 hive的数据类型
1,基本数据类型 – tinyint smallint int bigint :整数类型 – float double :浮点数类型 – Boolean :布尔类型 – string :字符串类型2,复杂的数据类型 – Array :数组类型,由一系列相同数据类型的元素组成 – Map:集合类型,包含key->value键值对,可以通过key来访问元素 –Struct:结构类型,可以包原创 2017-09-23 18:18:33 · 417 阅读 · 0 评论 -
第六节 hiveshell的常用命令
1,hive的启动方式 (1)CLI(命令行)方式 –直接输入#/bin/hive的执行程序 –或者输入#hive –service cli (2)Web界面方式 (3)远程服务启动方式 2,常用的cli命令 清屏:Ctrl+L 或者!clear 查看数据仓库中的表:show tables 查看数据仓库中内置的函数:show functions 查看表结构:desc 表名 查看原创 2017-09-23 18:17:41 · 519 阅读 · 0 评论 -
第五节 hive的安装
1,hive的安装 apache所有项目的历史版本网址:archive.apache.org (1)hive基于Hadoop,要安装hive先要安装hadoop (2)安装模式 –嵌入模式 元数据信息被存储在hive自带的derby数据库中 只允许创建一个连接 多用于Demo –本地模式 元数据信息被存储在mysql数据库中 MySQL数据库与hive运行在同一台物理机上 多...原创 2017-09-23 18:14:51 · 448 阅读 · 0 评论 -
第四节 HQL的执行过程
解析器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后由Map Reduce调用执行原创 2017-09-23 17:54:47 · 939 阅读 · 0 评论 -
第三节 hive之元数据
1,hive的元数据 hive将元数据存储在数据库中(metastore),支持MySQL、derby、oracle等数据库,默认是derby数据库2,什么是元数据 hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。原创 2017-09-23 17:51:42 · 446 阅读 · 0 评论 -
第二节 数据仓库简介
1,数据仓库 (1)数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合。他用于支持企业或组织的决策分析处理 [wikipedia]数据仓库是一种资讯系统的资料储存理论,此理论强调利用某些特殊资料储存方式,让所包含的资料,特别有利于分析处理,以产生有价值的资讯并依此作决策。 利用数据仓库方式所存放的资料,具有一但存入,便不随时间而更动的特性,同时存入的资料必定包含时间属性,通常原创 2017-09-23 17:47:18 · 560 阅读 · 0 评论 -
第一节 hive简介
1,什么是hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 hive是一个个构建在Hadoop HDFS上的数据仓库,是一一原创 2017-09-23 17:36:50 · 428 阅读 · 0 评论