hive -- 分区，分桶(创建，修改，删除)

最新推荐文章于 2024-04-09 21:01:47 发布

原创

最新推荐文章于 2024-04-09 21:01:47 发布 · 618 阅读

2 ·

CC 4.0 BY-SA版权

本文详细介绍了Hive中的分区和分桶概念，包括静态和动态创建分区，以及分区的修改和删除。同时，讨论了分桶的作用，如提高查询效率和支持高效连接，并展示了创建和操作分桶的步骤。通过实例演示了如何在Hive中进行分区和分桶操作，以实现数据管理和查询性能的优化。

hive -- 分区，分桶(创建，修改，删除)

分区：

静态创建分区：

1. 数据：

john doe	10000.0
mary smith	8000.0
todd jones	7000.0
boss man	20000.0
freed finance	15000.0
stacy saber	4000.0

建表+添加一个数据

create table if not exists employees(
name string,
money float)
row format delimited fields terminated by '\t'
stored as textfile;

load data local inpath '/home/data/employees.txt' into table employees;

问题：查询工资在8000元到10000元之间的人和工资

select *
from employees
where money between 8000 and 10000;

问题：按照工资添加新列，少于5000元的添加low，5000-7000元之间的添加middle，7000-10000元的添加hight，10000元以上添加very hight

select 
name,money,
case
when money>=5000 then(
case 
when money>=7000 then(
case
when money>=10000 then 'very hight'
else 'hight' end
)
else 'middle' end
)
else 'low' end 
from employees;

2.数据(分区)

li1	man	20
li11	man	21
li12	man	18
li13	woman	19
li14	man	20
li15	woman	21
li16	woman	22
li17	man	23
li18	man

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

meiLin_Ya

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

hive原理及使用：建表、文件格式、外表、分区、分桶，删除数据、更改表的属性

02-27

5167

1、什么是 metastore metadata 即元数据。包含 database、tabel、column names、partitions 信息、bucketing 信息等的元数据信息。元数据默认是存储在 Derby 中，建议存储在关系型数据库中。 metastore 安装方式有什么区别内嵌模式内嵌模式使用的是内嵌的 Derby 数据库来存储元数据，也不需要额......

educoder中Hive -- 索引和动态分区调整

weixin_46026136的博客

11-20

1174

【代码】educoder中Hive -- 索引和动态分区调整。

参与评论您还未登录，请先登录后发表或查看评论

plsql恢复未保存sql_sql入门—表的创建/删除/更新，数据的插入/删除/更新

weixin_39640687的博客

12-06

1082

SQL入门目录一、数据库的创建、删除 1、数据库创建： 2、数据库的删除：二、表的创建、删除、更新 1、表的创建： 2、表的更新： 3、表的删除：三、数据的插入、删除、更新 1、数据的插入： 2、数据的删除： 3、数据的更新：一、数据库的创建、删除1、数据库创建：打开客户端——选...

HIVE表不同分区数据处理

DataAlgo

10-17

2257

HIVE表处理数据的时候可能会遇到这种问题: 找出一张表中的两个分区的数据，做相应的处理（加减乘除等逻辑运算），其实有很多种方法，比如先将一张表的两个不同的分区找出来做处理，或者用条件判断做处理等等。比如一张表：table_name中字段id，time和分区type=liist_1/list_2 如果先将两张表中的分区找出来做join： select table_a.id,table_a.tim...

hive 怎么调整分桶数

qq_43192537的博客

12-02

788

hive 怎么调整分桶数

Hive表操作--分区表与分桶表

weixin_65265621的博客

04-09

685

Hive表操作--分区表与分通表详情

Hive--桶表

qq_41301707的博客

01-13

2102

目录1. 为什么要使用桶表？？？2. 桶表分桶规则3. 桶表的创建3.1 DLL3.2 数据3.3 DML3.4 查看桶表里面的数据3.5 临时表创建并加载数据3.6 把临时表的数据加载到桶表里面4. 桶表的查询4.1 桶表查询全表的数据4.2 桶表查看第一个桶里面的数据4.3 查看第二个桶里面的数据4.4 查看第三个桶里面的数据4.5 查看桶表固定行数据4.6 桶表查询语法4.7 其他查询5 桶表、分区表的区别6 两个桶表之间的Join6.1 year 桶表创建并加载数据6.2 两个桶表Join 1. 为

Hive分区

weixin_58078092的博客

10-10

595

一、分区的概念及作用概念：分区表实际上是在表的目录下在以分区命名，建子目录作用：进行分区裁剪，避免全表扫描，减少MapReduce处理的数据量，提高效率一般在公司的hive中，所有的表基本上都是分区表，通常按日期分区、地域分区分区表在使用的时候记得加上分区字段分区也不是越多越好，一般不超过3级，根据实际业务衡量二、如何实现分区表 1、分区表的简单创建及简单使用（增删查改）（1）建立分区表 create external table students_pt1 ( ...

第2节 hive基本操作：11、hive当中的分桶表以及修改表删除表数据加载数据导出等...

dengmanzhou3124的博客

06-19

740

分桶表将数据按照指定的字段进行分成多个桶中去，说白了就是将数据按照字段进行划分，可以将数据按照字段划分到多个文件当中去开启hive的桶表功能 set hive.enforce.bucketing=true; 设置reduce的个数 set mapreduce.job.reduces=3; 创建桶表 create table course (c_id stri...

hive数据库delete删除部分数据/删除分区内的数据

weixin_49114503的博客

11-17

1万+

在Hive中，删除部分数据是一个常见的操作，特别是当我们需要清除不再需要的数据或者进行数据更新时。Hive提供了多种方式来删除部分数据，本文将介绍其中几种常用的方法。

ubuntu分区方案（纯ubuntu系统）

dejahu的博客

09-23

9194

ubuntu分区方案（纯ubuntu系统）首先，基本配置是： 512G SDD +2T 机械，内存 64G 大神推荐分区方案：固态部分： 1.逻辑分区 500M EFI分区（用作EFI启动500M完全足够） 2.逻辑分区 500M /boot （开机程序500M完全足够） 3逻辑分区 64G swap 交换分区（按照内存大小来设置） 4.主分区剩下部分 /

hive删除分区数据语句_「赵强老师」在Hive中使用Load语句加载数据

weixin_39519769的博客

02-01

616

一、Hive中load语句的语法说明Hive Load语句不会在加载数据的时候做任何转换工作，而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法格式如下：LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]LOAD...

机器学习实战学习手册——k-NN篇

weixin_45549370的博客

09-13

816

机器学习实战学习手册——k-NN篇k近邻法(k-nearest neighbor/ k-NN)1. 算法背景2. 二维分类模型2.1 过程示例2.1.1 数据比较2.1.2 数据选取及标签提取3. n 维分类模型3.1 项目示例：优化约会网站的配对效果过程示例3.1 数据收集3.2 数据预处理3.2.1 数据拆分3.2.2 数据归一化处理3.3 数据分析3.4 测试算法3.5 数据预测学习总结参考目录 k近邻法(k-nearest neighbor/ k-NN) 1. 算法背景 k-NN是由Cover

Hive表的创建，删除，修改

Mr.horse的博客

01-08

1204

Hive会自动增加两个表属性:一个是last_modified_by，其保存着最后修改这个表的用户的用户名﹔另一个是 last_modified_time，其保存着最后一次修改的新纪元时间秒。TBLPROPERTIES的主要作用是按键-值对的格式为表增加额外的文档说明。

hive中的分区：PARTITIONED BY

又小雨的博客

07-29

1万+

一、例如如下这段建表语句每周活跃用户表 create external table dws_uv_detail_wk( `mid_id` string COMMENT '设备唯一标识', `user_id` string COMMENT '用户标识', `version_code` string COMMENT '程序版本号', `version_name` string COMMENT '程序版本名', `lang` string COMMENT '系统语

Hive Hive中的数据分桶以及使用场景

热门推荐

迎难而上

07-04

6万+

参考文章：hive分桶管理https://blog.youkuaiyun.com/freefish_yzx/article/details/77150714hive的分区和分桶https://blog.youkuaiyun.com/wl1411956542/article/details/52931499Hive中有数据分区的方案，也有数据分桶的方案，今天我们就来探讨下数据分桶以及数据分桶使用的场景。该篇文章主要分为一...

hive分区、分桶、sql语句

zhm的博客

01-16

7121

hive分区、分桶、sql语句 1. sql语句 1.1 创建表 CREATE TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT

Hive 分区分桶使用

赵英超的博客

01-22

3658

为了对表进行合理的管理以及提高查询效率，Hive可以将表组织成“分区”。　分区是表的部分列的集合，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提高查找效率很有帮助。分区是一种根据“分区列”（partition column）的值对表进行粗略划分的机制。Hive中的每个分区对应数据库中相应分区列的一个索引，每个分区对应着表下的一个目录，在HD

①Hive的安装与配置 ② Hive--桶表③Hive--外部分区表④Hive--内部分区表⑤内部表与外部表⑥Hive基本数据类型⑦Hive表DDL操作（一）实验① 在已安装Hadoop的基础上安装配置好Hive并运行。按照编程要求，在Hive下创建表。实验② 根据相关知识内容实现 Hive 分桶表的操作。实验③ 根据相关知识内容实现 Hive 外部分区表的操作。实验④ 根据相关知识内容实现 Hive 内部分区表的操作。实验⑤ 创建外部表，并导入数据。实验⑥ 2013年7月25日每种股票总共被客户买入了多少金额。实验⑦ 根据编程要求对数据库进行相关操作。根据编程要求在数据库中对表进行相应的操作。根据编程要求在数据库中对表进行相应的操作。根据编程要求在数据库中对表进行相应的操作。实验小结