Hive 桶表是否可以通过直接 load 将数据导入?

最新推荐文章于 2022-05-24 19:00:00 发布

原创最新推荐文章于 2022-05-24 19:00:00 发布 · 1.2w 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hive

大数据技术体系专栏收录该内容

285 篇文章

订阅专栏

本文探讨了HDFS中数据导入的问题，指出直接使用load数据无法实现分桶效果。分桶类似于MapReduce的分区，为了达到目的，建议利用中间表进行数据导入操作。这一方法对于理解大数据处理中的数据组织和分布至关重要。

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

不可以，因为 load 数据的话 HDFS 下只会有一个文件无法完成分桶的效果，分桶和 MapReduce 中的分区是一样的道理，所以我们要借助中间表导入数据。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Shockang

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hive把本地的数据文件load导入到表

Top5软件工程硕士，先后在京东、字节从事多年Java后端开发、实时和离线大数据开发

04-27

2万+

以下实例都是从本地导入： hive> load data local inpath 'sales_info.txt' overwrite into table sales_info partition(dt='2019-04-26'); 导入后本地的原数据文件依然存在，相当于复制过去；如果是从hdfs导入，则原数据文件不存在，相当于剪切过去。实例1：建表语句（不带分区字段，用逗号...

Hive Load数据进分桶表报错

Joker_Jiang3的博客

07-22

1271

Hive Load数据进分桶表报错一、报错如下： hive (test)> load data local inpath '/opt/modules/testdata/hive/bigtable' into table bigtable_buck2; FAILED: SemanticException Please load into an intermediate table and use 'insert... select' to allow Hive to enforce bucketin

2 条评论您还未登录，请先登录后发表或查看评论

hive创建分桶表

03-23

1283

1.指定分桶：开启分桶功能在hive连接中 set hive.enforce.bucketing=true; --默认是flase set mapreduce.job.reduces=4; --默认是-1 2.创建分桶表：分桶表创建的时候，分桶字段必须是表中的字段 create table student_buck(Sno int,Sname string,Sex string,Sag...

hive分桶步骤

秃头小姐姐

03-13

539

1、创建分桶表不能直接通过load将数据导入分桶表，直接导入后查看会发现没有被分成4个桶！【load不行，要走MapReduce任务】 create table stu_buck(id int,name string) clustered by(id）按id分桶 into 4 buckets 分几个桶 row format delimited fields terminated by '\t'; 2、创建普通表普通表目的：导入数据，将数据通过查询的方式导入分桶表 3、将数据load到

hive命令深入理解---------分区表和分桶表

Crazy_Clown的博客

06-20

1324

一、导入数据操作 1.load data local inpath ‘本地路径’ into table 数据库名.表名; （直接表名好像也可以）将本地的数据导入到hive仓库中例如： load data local inpath ‘/root/test.txt’ into table t.user01; 2.load data inpath ‘hdfs://本机名:端口号及路径’ in...

使用load data导入数据到普通表和分区表的区别

ImezZ

05-11

4157

使用load data形式导入数据总结测试案例从linux上正常load data 从HDFS上正常 load data 普通表指定分区的情况下load data 分区表未指定分区的情况下load data 字段缺少的情况下load data 字段过多的情况下load data 字段类型不一致的情况下load data 这里我们重点关注在HIVE中使用load data形式导入数据可能出现的一些情况。避免踩坑。总结这里我们根据实际情况作出一些总结，并针对不同的情况进行简单测试。使用load

建立Hive和Hbase的映射关系，通过Spark将Hive表中数据导入ClickHouse

07-31

这样，Hive查询可以通过HBase的表获取数据，反之亦然。映射的关键在于定义正确的SerDe（序列化/反序列化）类和配置参数，以确保Hive能理解HBase的行键和列族结构。接下来，Spark作为一个分布式计算框架，提供了一...

Kettle将数据导入导Hive2

01-07

本来将数据导入到hive，但是不知道什么原因太慢了，一小时200条数据，优化一波kettle，还是成效不大，因此改为借用hadoop file output 到hdfs，然后再load 到hive表里一，正文 1.在转换里拖入big data/hadoop ...

mysql数据导入hive_Load将Mysql数据导入Hive样例方案

weixin_35029527的博客

01-25

1562

1.1业务场景模拟使用Loader工具将客户移动电话系统产生的历史数据从原始数据库Mysql导入到Hive中，进行离线分析。1.2操作步骤1.2.1创建用户1.进入FunsionInsight Manager界面，进去系统，创建本次测试用户，给予最大权限即可。1.2.2Loader准备工作1.获取关系型数据库对应的驱动jar包保存在Loader服务主备节点的lib路径：“${BIGDATA_HOM...

使用kettle将mysql中的数据导入到hive中

01-07

先说说思路：1是直接从mysql输出至hive中，另外一个是先将数据搞到hdfs中，再load一下，当然这只是textfile存储格式而言，若是ORC等其他列式存储的话建议先搞一个textfile格式的中间表，再insert into table select ...

hive数据库分桶表格的基本操作

HCXK2017的博客

05-24

1729

分桶表对比前面的分区表，分桶表是对数据进行更加细粒度的划分。分桶表将整个数据内容按照某列属性值的哈希值进行区分，使用该哈希值除以桶的个数得到取余数，余数决定了该条记录会被分在哪个桶中。余数相同的记录会分在一个桶里。需要注意的是，在物理结构上，一个桶对应一个文件，而分区表只是一个目录，至于目录下有多少数据是不确定的。应用场景： 1.数据抽样在处理大规模数据集时，尤其载数据挖掘的阶段，可以用一份数据验证一下，代码是否可以运行成功，进行局部测试，也可以抽样进行一些代表性统计分析。分桶抽样

关于hive中从hdfs上load数据到表中而HDFS上的数据却消失的若干问题

路漫漫其修远兮，吾将上下而求索

05-17

1万+

今天偶然间发现hive中一个我之前没有注意到的一个小细节(我怀疑你们之前也可能没有注意到)：那就是当我们试图从HDFS上导入数据到我们自己所创建的表中的时候 load data inpath '/xxx/xxx/test.txt' into table mytable; 发现原来存在于HDFS上的数据/xxx/xxx/test.txt 竟然消失不见了我试图寻找它的一丝踪迹却发现它消失的...

07 hive中分区表、分桶表、表的修改

lovetg0419的博客

12-28

822

一、分区表在大数据中，最常用的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天，或者每小时进行切分成一个个的小的文件，这样去操作小的文件就会容易得多了。一个分区相当于hdfs中的一级文件件多个分区类似于hdfs中的多级文件夹，如下图：数据源 01 01 80 01 02 90 01 03 99 02 01 70 0...

Hive分桶和抽样查询

张鑫的博客

08-13

2346

一、分桶分区针对的是数据的存储路径；分桶针对的是数据文件，就相当于hadoop里面的真正的分区。 ★怎么选择桶？默认时对某一列进行hash，使用hashcode对桶的个数求模取余，确定哪一条记录进入哪一个桶。分桶后，桶内有序，整体不一定有序。分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区，特别是之前所提到过的要确定...

Hive四大表类型内部表、外部表、分区表和桶表

梦想不会灭

11-25

1767

一、概述总体上Hive有四种表：外部表，内部表（管理表），分区表，桶表。分别对应不同的需求。下面主要讲解各种表的适用情形、创建和加载数据方法。二、具体内容 1.内部表自己建表插入原本在HDFS上不存在的数据就是内部表创建内部表和加载数据 create table emp_inner( empno int, ename string, job string, mgr int, hiredat...

Hive Load命令

数据源的港湾

03-17

1万+

本文主要是翻译Hive官网关于Load的解释，原文来源于：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Loadingfilesintotables介绍Hive Load语句不会在加载数据的时候做任何转换工作，而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法LOAD

创建hive表和使用Load data指令导入数据的注意事项

热门推荐

helloxiaozhe的博客

11-04

7万+

创建hive表和使用Load data指令导入数据的注意事项（一）创建hive数据库和表1.1 类似于MySql创建命令，创建数据库和表，并指定它在hdfs上的存储数据的目录'/hive_hdfs_local_data‘hive> CREATE DATABASE yyz_workdb; hive> create external table test_user( > us...

Hive基本操作(外部表，分区表，分桶表，修改表，加载导出数据)

bitmao888的博客

04-19

1397

文章目录创建数据库与创建数据库表启动服务端启动客户端创建数据库创建数据库并指定hdfs存储位置修改数据库查看数据库基本信息查看数据库更多详细信息删除数据库创建数据库表操作hive建表Hive建表时候的字段类型创建表并指定字段之间的分隔符根据查询结果创建表（包含结果和内容）根据已经存在的表结构创建表外部表外部表说明管理表和外部表的使用场景操作案例创建老师表创建学生表从本地文件系统向表中加载数据，不加...

hive查看表中列的信息命令_疯狂Hive之DDL操作二（三）

weixin_39750410的博客

11-19

391

分区表创建在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition分区概念分区表指的是在创建表的时候指定的partition的分区空间。一个表可以拥有一个或者多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下。表和列名不区分大小写。分区是以字段的形式在表结构中存在，通过describe tabl...

hive 创建外部表时能否直接导入数据？

06-03

是的，Hive创建外部表时可以直接导入数据。下面是具体的步骤： 1. 打开Hive命令行终端，输入以下命令以创建一个新的数据库： ``` CREATE DATABASE my_database; ``` 2. 使用以下命令来选择创建的数据库： ``` USE my_database; ``` 3. 输入以下命令创建一个新的外部表，并直接从数据文件中导入数据，例如我们创建一个名为`my_table`的外部表： ``` CREATE EXTERNAL TABLE my_table ( id INT, name STRING, age INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION '/user/hive/data' tblproperties ("skip.header.line.count"="1"); LOAD DATA LOCAL INPATH '/path/to/data/file/data.txt' OVERWRITE INTO TABLE my_table; ``` 上述命令创建了一个外部表，其结构与前面创建的表相同，但是它的数据存储在`/user/hive/data`目录下，而不是Hive默认的目录中。在表的属性中，我们使用了`"skip.header.line.count"="1"`来跳过数据文件的第一行，这样就不会将数据文件的表头导入到表中。 4. 在创建外部表的同时，使用`LOAD DATA`命令将数据从本地文件中导入到外部表中，例如我们将数据文件存储在`/path/to/data/file/data.txt`目录下。这里使用了`LOCAL INPATH`参数来指明数据文件的本地路径，`OVERWRITE`参数表示如果表中已经有数据，则覆盖原有数据。到这里，我们就完成了Hive创建外部表并直接导入数据的过程。需要注意的是，外部表的数据存储在Hadoop集群中，并且Hive只是对这些数据的元数据进行管理，因此在删除外部表时，数据不会被删除。