hive load from hdfs出错

最新推荐文章于 2022-09-27 13:03:06 发布

原创最新推荐文章于 2022-09-27 13:03:06 发布 · 7.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop #Hive #load

Hadoop 专栏收录该内容

15 篇文章

订阅专栏

本文介绍了一个关于使用HiveQL进行LoadData操作时遇到的错误，并给出了正确的解决方案。错误提示为路径不合法，通过将IP地址替换为别名解决了问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用hive load从hdfs中load data的时候，hiveql如下:

load data inpath 'hdfs://192.168.0.131:9000/hive/test.log'
overwrite into table test_log
partition(dt="20130703");

出错：

FAILED: SemanticException [Error 10028]: Line 1:17 Path is not legal ''hdfs://192.168.0.131:9000/hive/test.log'': Move from: hdfs://192.168.0.131:9000/hive/test.log to: hdfs://namenode:9000/home/hadoop/hive/warehouse/test_log/dt=20130703 is not valid. Please check that values for params "default.fs.name" and "hive.metastore.warehouse.dir" do not conflict.

查找度娘、谷哥没找到相应的解决方案。后来回头一想，之前在做hbase的一些操作的时候，直接使用ip也不行，转换成别名即可。

load data inpath 'hdfs://namenode:9000/hive/test.log'
overwrite into table test_log
partition(dt="20130703");

尝试之下，再次测试，成功执行。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ibenben.org

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hive ,从hdfs把数据文件load导入到表

Top5软件工程硕士，先后在京东、字节从事多年Java后端开发、实时和离线大数据开发

04-27

2万+

hive> load data inpath 'hdfs://ns1/abc/sales_info/hello/sales_info.txt' overwrite into table sales_info partition(dt = '2019-04-26'); 1 原数据文件（已经不存在了，是从原路径移动到了新路径下）：如果从本地导入后本地的原数据文件依然存在，相当于复制过去；...

最容易出错的 Hive Sql 详解

奋斗的阿杰的博客

08-17

566

最容易出错的 Hive Sql 详解

参与评论您还未登录，请先登录后发表或查看评论

hive导入HDFS数据

热门推荐

z363115269的专栏

09-04

2万+

HDFS文件路径：/user/test/qar_test.txt

HIVE_HIVE_load data_TO_HDFS，从hdfs上导入hive分区

迎难而上

06-04

849

大致语法如下： LOAD DATA [LOCAL] INPATH '/path/to/local/files' OVERWRITE INTO TABLE table_name [PARTITION ( pt = 'partion-key' [,....] )] ; 作用：将本地或者hdfs上的数据导入hive表 LOCAL 有 LOCAL 表示从本地文件系统（文件会被拷贝到 HDFS 中）无 LOCAL 表示从HDFS中加载数据（注意：文件直接被移动 !!! 而不是拷...

hive从hdfs迁移数据load第二次失败

xxl0769的博客

12-23

962

第一次迁移被删后，第二次失败，重新建表就好了报错信息：数据清理不干净

从零开始大数据--Hadoop、HDFS、MapReduce、HBase、Hive

MOKE_SPACE

05-21

3248

文章目录概述HadoopHDFSHBase实现原理Regin服务器原理HBase安装与使用NoSQL数据库MapReduceHive 概述 IT领域每隔十五年就会迎来一次重大变革： 1980：个人计算机 1995：互联网 2010：物联网、云计算和大数据信息科技为大数据时代提供技术支撑：存储设备容量不断增加 CPU处理能力大幅提升网络带宽不断增加大数据是由结构化和非结构化数据组成的 10%的结构化数据，存储在数据库中 90%的非结构化数据，它们与人类信息密切相关大数据技术的不同层面

Hive加载数据的几种方式

阿尼古

03-26

3247

Hive加载数据的几种方式 1、load data 加载数据方式 2、insert 方式进行加载数据 3、from table 多重插入数据方式不多bb，主要介绍一下，多重插入数据方式 1、load data 方式 load装载数据 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [...

日常使用过程中易出错的 Hive Sql 合集

StoneWords的博客

09-27

313

结果是错误的，把所有的电器类型都查询出来了，原因就是 and 优先级高于 or，上面的sql语句实际执行的是，先找出 classify = '家具' and price>100 的，然后在找出 classify = '电器' 的。在进行数仓搭建和数据分析时最常用的就是 sql，其语法简洁明了，易于理解，目前大数据领域的几大主流框架全部都支持sql语法，包括 hive，spark，flink等，所以sql在大数据领域有着不可替代的作用，需要我们重点掌握。

【若泽大数据实战第十七天】Hive - DDL + DML Hive日志路径修改

强悍de巨人

06-06

1044

前言：上一个章节，若泽给我们讲的第一堂课Hive，详细的总结了，有关Hive的各种信息，本次课程讲讲Hive的 DDLDatabaseHive中包含了多个数据库，默认的数据库为default，对应于HDFS目录是/user/hadoop/hive/warehouse，可以通过hive.metastore.warehouse.dir参数进行配置（hive-site.xml中配置）TableHive中...

Hive Load装载数据与HDFS的关系

CharlesCFA的博客

02-19

1879

装载数据：LOAD移动数据 LOCAL：指定文件位于本地文件系统；OVERWRITE表示覆盖现有数据使用方法： -- load数据格式 LOAD DATA LOCAL INPATH '/home/dayongd/Downloads/employee.txt' OVERWRITE INTO TABLE employee; -- 方式一：LOCAL表示文件位于本地，OVERWRITE表示覆盖现有数据 LOAD DATA LOCAL INPATH '/home/dayongd/Downloads/empl

hive报错汇总

qnstar_的博客

09-24

621

【错误1】 WARN: Establishing SSL connection without server’s identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn’t set. For compliance with e

FAILED: SemanticException Line 1:17 Invalid path ''input'': No files matching path hdfs://localhost:

谢三岁的博客

05-14

1万+

load data inpath出错原因及解决方法(把Hadoop下的文件加载到HIve一个表中出错) 问题：今天做实验时，想把hadoop下的input文件加载到Hive下的数据库的一个表时，报错提示没有路径不对，没有找到input文件 FAILED: SemanticException Line 1:17 Invalid path ‘‘input’’: No files matching path hdfs://localhost:9000/user/hadoop/input 可是，我hadoop的

Error: Error while compiling statement: FAILED: SemanticException Unable to load data to destination

miao1997的博客

04-13

1万+

ods层新加了一张表，和以前的格式一样 DROP TABLE IF EXISTS ods_students_industry_level; CREATE TABLE `ods_students_industry_level` ( `id` INT COMMENT '编号', `first_industry` STRING COMMENT '一级行业', `second_industry` STRING COMMENT '二级行业', `parent_id` INT COMMENT '父级

每日分享 hive hue 报错Error while compiling statement: FAILED: SemanticException Error in parsing

跳蛙pass的博客

02-11

3638

报错原因 SemanticException Error in parsing 翻译过来大意就是解析中的 SemanticException（语义异常）错误解决办法应该修改成 a.dcbh 而不是 a,dcbh

load data inpath出错原因及解决方法

dengjieyun1598的博客

08-25

1940

hive> load data inpath "hdfs://Master.hdp:9000/person.txt" into table Person1; FAILED: SemanticException [Error 10028]: Line 1:17 Path is not legal '"hdfs://Master.hdp:9...

hiveserver2查询操作报错Error while compiling statement等

技术探求

02-22

9107

1 问题产生背景更换hive客户端还使用原先的关系型数据库（我用的是mysql）的metastore 2 报错信息 Error: Error while compiling statement: FAILED: SemanticException Unable to fetch table emp. Exception thrown when executing query : SELECT DISTINCT 'org.apache.hadoop.hive.metastore.model.MTable'

【大数据开发】Hive错误

白色风车

09-19

5072

Hive错误错误1： org.apache.thrift.transport.TTransportException: java.net.SocketException: Connection reset by peer: socket write error 解决方式： mysql数据库连接太久了，断开重连错误2： SemanticException [Error 10001]: Line 2:5 Table not found 'student' 解决方式：语言异常：找不到表student 指定

Hive执行SQL报错FAILED: SemanticException[Error10025]: Line1:32 Expression not in GROUP BY key ‘orderid‘

wufabao的博客

11-11

3097

原因在Hive中，GROUP BY 后 SELECT 列的限制，Select 查询的列，要么需要是 Group by 中的列，要么得是用聚合函数（ sum、count 、avg等）加工过的列。不支持直接引用原表中的列。

hive怎么读取hdfs上的数据

最新发布

03-11

<think>嗯，用户问的是Hive如何读取HDFS上的数据。我需要先回忆Hive的基本架构和运作原理。Hive本身是建立在Hadoop上的数据仓库工具，所以它和HDFS的关系很密切。首先，Hive的表结构其实是对HDFS上存储数据的元数据映射。也就是说，当用户在Hive中创建表时，实际上是在定义如何解析HDFS上的文件。接下来，用户可能需要具体的步骤。比如创建表的时候需要指定存储位置，或者如何将已有数据加载到Hive表中。记得Hive支持两种类型的表：内部表和外部表。内部表的数据由Hive管理，删除表时会同时删除数据；而外部表只管理元数据，删除表不会影响HDFS上的数据。这时候需要解释这两种表的区别，以及如何指定LOCATION参数来指向HDFS路径。然后，数据加载的方式。用户可能知道LOAD DATA命令，但需要区分是从本地文件系统还是HDFS加载。如果是HDFS的话，使用INPATH时数据会被移动到Hive的仓库目录，而LOCAL关键字则是从本地加载。不过用户的问题是关于读取HDFS的数据，所以可能更关注如何直接关联已有HDFS路径到Hive表，这时候用外部表更合适。另外，需要注意文件格式。Hive支持多种格式，比如TEXTFILE、ORC、PARQUET等。如果用户的数据是特定格式，需要在建表时指定STORED AS，并且确保SerDe（序列化/反序列化）正确。例如，CSV文件可能需要使用OpenCSVSerDe。还可能遇到分区表的情况，这时候需要用到PARTITIONED BY子句，并且用户可能需要通过MSCK REPAIR TABLE来加载分区信息，或者手动添加分区。最后，用户可能需要验证数据是否正确加载，比如用SELECT语句查询前几行，或者检查HDFS路径是否正确。另外，权限问题也可能导致Hive无法读取HDFS数据，需要确保Hive服务账户有访问相应目录的权限。总结下来，回答的结构应该是先介绍Hive与HDFS的关系，然后分步骤说明如何通过内部表和外部表读取数据，数据加载的方式，文件格式和分区表的处理，最后是验证步骤和常见问题。这样用户能够逐步理解整个过程，并应用到实际场景中。</think>Hive 读取 HDFS 数据的核心机制是通过 **元数据映射** 和 **表定义解析** 实现的。以下是具体步骤和原理说明： --- ### 一、Hive 与 HDFS 的关系 1. **元数据存储** Hive 的元数据（如表名、字段、文件路径等）存储在独立数据库（如 MySQL）中，而实际数据仍保存在 HDFS 上。 2. **数据物理位置** 每个 Hive 表对应 HDFS 上的一个目录，数据以文件形式存储在该目录下（例如 `/user/hive/warehouse/table_name`）。 --- ### 二、读取 HDFS 数据的核心方法 #### 方法 1：创建内部表（Managed Table）通过 `LOCATION` 指定 HDFS 路径（默认路径可省略）： ```sql CREATE TABLE my_table ( id INT, name STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION '/user/hive/warehouse/my_table'; ``` - **特点**：删除表时，HDFS 数据会被同步删除。 #### 方法 2：创建外部表（External Table）使用 `EXTERNAL` 关键字关联已有 HDFS 数据： ```sql CREATE EXTERNAL TABLE external_table ( id INT, name STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION '/user/data/logs'; ``` - **特点**：删除表时仅删除元数据，HDFS 原始数据保留。 --- ### 三、加载数据的两种方式 #### 1. 直接关联已有数据将 HDFS 数据文件上传到表对应的目录： ```bash hdfs dfs -put /local/data.csv /user/hive/warehouse/my_table ``` #### 2. 使用 `LOAD DATA` 命令从 HDFS 加载数据到表中（数据会被移动到目标目录）： ```sql LOAD DATA INPATH '/input/data.csv' INTO TABLE my_table; ``` --- ### 四、关键注意事项 1. **文件格式匹配** 需指定与数据匹配的格式（如 `TEXTFILE`, `ORC`, `PARQUET`），例如： ```sql STORED AS PARQUET ``` 2. **自定义分隔符** 非标准格式需明确分隔符： ```sql ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' COLLECTION ITEMS TERMINATED BY ',' ``` 3. **分区优化** 对 HDFS 目录按分区存储的数据，需定义分区字段： ```sql CREATE TABLE partitioned_table ( id INT, event STRING ) PARTITIONED BY (dt STRING); ``` --- ### 五、验证数据读取 1. 执行简单查询： ```sql SELECT * FROM my_table LIMIT 10; ``` 2. 检查 HDFS 文件路径： ```bash hdfs dfs -ls /user/hive/warehouse/my_table ``` --- ### 六、常见问题排查 1. **权限问题** 确保 Hive 服务账户对 HDFS 目录有读写权限： ```bash hdfs dfs -chmod -R 755 /user/hive/warehouse ``` 2. **元数据刷新** 手动添加分区或修复元数据： ```sql MSCK REPAIR TABLE partitioned_table; ``` 通过以上步骤，Hive 可高效读取 HDFS 数据，并借助 MapReduce/Tez 引擎完成计算任务。