05分布式数据仓库 HIVE -- 分区表的操作

最新推荐文章于 2022-07-28 19:45:00 发布

原创最新推荐文章于 2022-07-28 19:45:00 发布 · 501 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive

hive 专栏收录该内容

11 篇文章

订阅专栏

本文介绍了如何使用 Hive 进行分区操作，包括创建、添加、删除分区以及数据导入等关键步骤。还详细讲解了自动化分区的过程，并提供了具体示例。

创建分区

create table user(

name string

)

partitioned by (dt string,b string);

添加分区

alter table user add if not exists partition(dt='20140405',b='boy');

删除分区

alter table user drop if extists partition(dt='20140405',b='girl');

导入分区数据

load data local inpath '/home/data/user.txt' overwrite into table user partition(dt='20140405'); //overwrite覆盖原始文件。非overwrite

load data inpath '/home/data/user.txt' overwrite into table userr partition(dt='20140405'); //剪切过去，不是复制过去。

insert into（overwrite） table user partition(dt='20140405')

select name,age from student

where sex = 1;

自动化分区

create table user{name} partitioned by (dt string) row format delimited fields terminated by '\t' lines terminated by '\n' stored as textfil;

show partitions user;

select * from user;

set hive.exec.dynamic.partition = true; //在一次hive cli界面内生效。

set hive.exec.dynamic.parttion.mode = nonstrict; //strict第一个分区需要固定

insert overwrite table user partiton(dt) select name,age as dt from student;

show partitions user;

select * from user where dt = '1';

hadoop fs -text "warehouse/user";

分区在创建，插入，查询阶段，需要保持分区的顺序一致。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

codemosi

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive分布式数据仓库

小k要加油的博客

02-13

2395

简介 Hive是基于静态批处理Hadoop的一个数据仓库工具，通过Hive可以实现将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，同时将sql语句转换为MapReduce任务进行运行，所以其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计。Hive具有sql数据库的外表，但应用场景完全不同，Hive 适合高延迟的查询，Hive并不提供实时的查询和基于行级的数据更新操作，所以Hive 的最佳使用场合是大数据集的批处理作业，例如，网络日志分析 Hive特性

hive数据仓库--Hive介绍

m0_58625397的博客

03-21

4384

hive

参与评论您还未登录，请先登录后发表或查看评论

03分布式数据仓库 HIVE -- 数据的相关操作

codemosi的专栏，点击我可以跳到目录一栏

12-22

699

执行hive语句的方式 1：cli（command line interface） 2：jdbc 3：beeline 4：hwi 1 hive -命令（和hql执行有关） hive -V(-S) -e "select * from user" > /home/data; // -e 在linux下直接运行hql hive -f

02分布式数据仓库 HIVE -- 表的相关操作

codemosi的专栏，点击我可以跳到目录一栏

12-19

559

建表 create table user(name string,password string); 简单建表 CREATE EXTERNAL TABLE SOGOUQ1(DT STRING,WEBSESSION STRING,WORD STRING,S_SEQ INT,C_SEQ INT,WEBSITE STRING) ROW FORMAT DELIMITED FIELDS TERMIN

数据湖：分布式容错数据仓库Hive

渡江客涂鸦板

07-28

1406

Apache Hive 是可实现大规模分析的分布式容错数据仓库系统。该数据仓库集中存储信息，您可以轻松对此类信息进行分析，从而做出明智的数据驱动决策。Hive 让用户可以利用 SQL 读取、写入和管理 PB 级数据。...

10分布式数据仓库 HIVE -- HIVE案例实战1 apache common日志分析

codemosi的专栏，点击我可以跳到目录一栏

12-24

1513

1 日志分析场景某网站的apache common每天产生一个日志日志文件。将每一天的日志文件，按照日期作为分期，导入HIVE数据仓库。通过hive分析网站用户行为，如:PV，注册数,UV ip 时间访问地址

3. Hive分布式数据仓库【华为HCIA-BigData】

qq_44577070的博客

02-27

4154

Hive是基于Hadoop的数据仓库软件，可以查询和管理PB级别的分布式数据。数据仓库软件使用SQL读取、写入和管理分布式存储中的大型数据集。可以将表结构投影到已经存储的数据上。提供了命令行工具和DBC驱动程序以将用户连接到Hive。

Hadoop之分布式数据仓库（Hive）

柳小葱的博客

04-26

1291

Hive最初是由Facebook开发的，后来由Apache基金会开发，并作为Apache的一个顶级开源项目。Hive基于Hadoop，专门为联机分析处理（OLAP）设计，但由于Hadoop Mapreduce并不实时，所以Hive并不适合联机事务处理（OLTP）。Hive的最佳使用场合是大数据集的批处理作业。目录1.Hive的概述2.Hive的特点2.1优点2.2缺点3.Hive的结构4.Hive与数据库的区别4.1数据更新4.2执行延迟4.3数据规模参考资料 1.Hive的概述 Hive处理的数据是

hive分区对应hadoop_【4.分布式计算】hadoop-hive

weixin_36254931的博客

12-23

243

hive对hdfs中数据进行抽象成表，可以通过sql组装m_p的过程。(更多大数据处理见：https://segmentfault.com/a/11...)。数据通过mysql和hdfs存储，存储格式用的现有文件格式，mysql存结构/hdfs存表数据(比如insert id name 4 ss,hdfs存 4ss)。只是sql到m_p的映射，这过程又比较复杂。所以这里只介绍下hive的执行过程和...

精选资源

hive-exec-2.1.1.jar

03-14

Hive Metastore：存储元数据（如表的模式、分区信息等）。 HiveServer2：提供客户端连接和 SQL 查询执行。 Hive Execution Engine：这是实际执行查询的组件，它读取数据，处理查询，并返回结果。 hive-exec-2.1.1 是...

hive-3.1.2.rar

最新发布

10-10

Hive是一种构建在Hadoop之上的数据仓库工具，它可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能来处理分析存储在Hadoop文件系统中的大规模数据集。Hive定义了一种类似SQL的语言，称为HiveQL，用于执行...

精选资源

apache-hive-3.1.2-bin.tar.gz

06-24

5. `metastore/`：元数据存储相关的库和脚本，Hive使用元数据来跟踪表和分区的信息。 6. `docs/`：文档和帮助资料。升级Jetty的过程可能包括下载源码，修改pom.xml文件以指定新版本，编译源码，然后将新编译的...

精选资源

apache-hive-2.3.9-bin.tar大数据HIVE.zip

10-08

Apache Hive 是一个基于 Hadoop 的数据仓库工具，用于组织、查询和分析大量数据。它提供了一个SQL-like（HQL，Hive SQL）接口，使得非专业程序员也能方便地处理存储在Hadoop分布式文件系统（HDFS）中的大规模数据集...

06分布式数据仓库 HIVE -- 数据的查询（HQL Hive Query Language）

codemosi的专栏，点击我可以跳到目录一栏

12-23

1063

where查询 select * from user where name = ‘liguozhong’; where 操作是在多个map端进行的。 group by select name age count(1),avg(age),sum(money),count(distinct age) form user where sex = 'b' group by

11分布式数据仓库 HIVE -- HIVE案例实战2 SLA

codemosi的专栏，点击我可以跳到目录一栏

12-25

850

--========== order_created ==========-- /* 10703007267488 2014-05-01 06:01:12.334+01 10101043505096 2014-05-01 07:28:12.342+01 10103043509747 2014-05-01 07:50:12.33+01 10103043501575 2014-05-

08分布式数据仓库 HIVE -- UDF和UDAF

codemosi的专栏，点击我可以跳到目录一栏

12-24

800

UDF（user defined function）用于对每一条记录产生作用的自定义函数。 package hive; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public class MyUDF extends UDF { private boolean ev

09分布式数据仓库 HIVE -- HIVE优化

codemosi的专栏，点击我可以跳到目录一栏

12-24

720

HIVE执行流程 explain extended select city,count(1) from user group by city; //查看HQL对应的mapreduce流程树 1表的优化 1：表分区（例如：日志按天存放） 2：表分桶 2HQL优化 1： join优化 set hive.optimize.skewjoin=true;数据倾斜 se

01分布式数据仓库 HIVE -- 数据类型-文件格式

codemosi的专栏，点击我可以跳到目录一栏

12-19

674

HIVE的数据类型包括基本，和复杂两种类型。数据类型所占字节开始支持版本 TINYINT 1byte，-128 ~ 127 SMALLINT 2byte，-32,768 ~ 32,767 INT 4byte,-2,147,483,648 ~ 2,147,483,647

04分布式数据仓库 HIVE -- 导出分析结果

codemosi的专栏，点击我可以跳到目录一栏

12-22

536

1 hadoop：get和text命令，整个表对应的文件都导出去。 2 insert overwrite local directory ‘/home/resultDir’ row format delimited fields terminated by '\t' select name,age from user where sex = 1;