
Hive
晟翊zzZ
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive ,MySQL安装与部署
Hive基本概念 1.什么是Hive Hive:是由Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL/SQL 转化为 MapReduce 程序。 Hive 处理的数据储存在 HDFS。 Hive 分析数据的底层实现是 MapReduce。 执行程序运行在 y...原创 2019-09-10 20:51:10 · 570 阅读 · 0 评论 -
Hive 常用配置、操作、数据类型 及DDL语句。
Hive 常见属性配置 1.Hive数据仓库位置配置 1.Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下 2.在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹。 3.修改default数据仓库原始位置(将hive-default.xml.template如下配置信息拷...原创 2019-09-12 15:11:58 · 404 阅读 · 0 评论 -
分区和DML操作
分区表 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。 案例实操 分别创建部门和员工外部表,并向表中导入数据。 (1)原始数据 (2)建表语句 创建部门表 create external t...原创 2019-09-13 18:53:15 · 243 阅读 · 0 评论 -
Hive查询及 Hive排序
查询 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 全表和特定列查询: 全表查询 select * from emp; 选择特定列查询 select empno, ename from emp; 注意: (1)SQL 语言大小写不敏感。 (2)SQL 可以写在一行或者多行。 (3)关键字不能被缩写也不能...原创 2019-09-17 20:15:41 · 1093 阅读 · 0 评论 -
Hive分桶 、Hive自定义函数、Hive压缩、Hive、存储格式
分桶及抽样查询 分桶表数据存储 分区针对的是数据的存储路径;分桶针对的是数据文件。 分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个疑虑。 分桶是将数据集分解成更容易管理的若干部分的另一个技术。 先创建分桶表,通过直接导入数据文件的方式 (1)创建分桶表 create table stu_buck1(id int, n...原创 2019-09-18 21:00:48 · 214 阅读 · 0 评论 -
大数据之Hive 调优
Hive调优 抓取 Fetch Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老...原创 2019-09-20 20:11:19 · 208 阅读 · 0 评论