执行hive -e sql 报错

本文记录了一次使用Hive SQL进行数据查询时遇到的解析错误,并展示了正确的查询语法及结果。通过对比错误与正确的查询命令,分析了可能的原因。
at org.apache.hadoop.util.RunJar.main(RunJar.java:212)
FAILED: ParseException line 1:6 cannot recognize input near '<EOF>' '<EOF>' '<EOF>' in select clause
[wangshumin@centoshostnameKL3 logs]$ hive -e select * from  sys_user limit 2;


Logging initialized using configuration in file:/home/wangshumin/hive/hive3/conf/hive-log4j.properties
NoViableAltException(-1@[])
at org.apache.hadoop.hive.ql.parse.HiveParser_SelectClauseParser.selectClause(HiveParser_SelectClauseParser.java:1087)
at org.apache.hadoop.hive.ql.parse.HiveParser.selectClause(HiveParser.java:45827)
at org.apache.hadoop.hive.ql.parse.HiveParser.selectStatement(HiveParser.java:41495)
at org.apache.hadoop.hive.ql.parse.HiveParser.regularBody(HiveParser.java:41402)
at org.apache.hadoop.hive.ql.parse.HiveParser.queryStatementExpressionBody(HiveParser.java:40413)
at org.apache.hadoop.hive.ql.parse.HiveParser.queryStatementExpression(HiveParser.java:40283)
at org.apache.hadoop.hive.ql.parse.HiveParser.execStatement(HiveParser.java:1590)
at org.apache.hadoop.hive.ql.parse.HiveParser.statement(HiveParser.java:1109)
at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:202)
at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:166)
at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:396)
at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:308)
at org.apache.hadoop.hive.ql.Driver.compileInternal(Driver.java:1122)
at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1170)
at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1059)
at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1049)
at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:213)
at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:165)
at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:376)
at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:311)
at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:708)
at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:681)
at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:621)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.hadoop.util.RunJar.main(RunJar.java:212)
FAILED: ParseException line 1:6 cannot recognize input near '<EOF>' '<EOF>' '<EOF>' in select clause
[wangshumin@centoshostnameKL3 logs]$ hive -e "select * from  sys_user limit 2";


Logging initialized using configuration in file:/home/wangshumin/hive/hive3/conf/hive-log4j.properties
OK
1 开发管理员 devadmin jZae727K08KaOmKSgOaGzww/XVqGr/PKEgIMkjrcbJI= 0 0 2013-04-10 16:51:03.0 1 yg_zhangyg@126.com 13580000000 020-61151619100 100 devadmin null NULL null null null null NULL NULL 1 1 NULL NULL null 2018-03-12 15:38:32.0
6 配置管理员 confadmin jZae727K08KaOmKSgOaGzww/XVqGr/PKEgIMkjrcbJI= 0 0 2013-04-16 16:51:03.0 1 136@163.com 13381364000    100 100 NULL 100 0 1 1 NULL 0 null 2018-01-17 09:13:16.0
Time taken: 1.967 seconds, Fetched: 2 row(s)
[wangshumin@centoshostnameKL3 logs]$ 
<think>我们正在讨论Hive SQL的常见错误信息。根据引用[2]中的内容,我们知道在Join操作中,如果表的大小安排不当,可能会导致内存溢出错误。引用[3]展示了一个Hive SQL优化中的错误写法,使用count(distinct)在大数据量时可能导致性能问题。引用[4]则展示了在获取Hive表最大ID时可能遇到的NULL值处理问题。 结合这些引用和Hive SQL的常见问题,我们可以总结出以下几类常见错误: 1. **语法错误**:如缺少关键字、括号不匹配、表名或列名错误等。 2. **资源不足错误**:如内存溢出(OOM)、容器被YARN杀死等,通常由于数据倾斜或资源配置不合理导致(如引用[2]提到的Join操作内存问题)。 3. **数据问题**:如空值(NULL)处理不当(如引用[4])、数据类型不匹配、分区不存在等。 4. **配置问题**:如Hive配置错误、缺少UDF、权限不足等。 5. **性能问题**:如使用低效的SQL写法(如引用[3]中count(distinct)在大数据量时的性能问题)、未利用分区或索引等。 6. **执行引擎问题**:如使用Tez或Spark引擎时,任务失败、shuffle错误等。 下面详细列举一些具体的错误信息: ### 1. 语法错误 - **错误示例**:`FAILED: ParseException line 1:5 cannot recognize input near 'SELECT' '*' 'FROM' in expression specification` - **原因**:SQL语句语法错误,可能是关键字拼写错误或结构不正确。 - **解决方法**:仔细检查SQL语句,确保符合Hive SQL语法。 ### 2. 资源不足错误 - **错误示例**:`Container killed by YARN for exceeding memory limits.` - **原因**:任务所需内存超过容器限制,常见于数据倾斜或配置不合理(如引用[2]的Join操作未优化)。 - **解决方法**: - 优化SQL(如将小表放在Join左边)。 - 调整资源配置(如增加`mapreduce.map.memory.mb`和`mapreduce.reduce.memory.mb`)。 ### 3. 数据问题 - **错误示例**:`Failed with exception java.io.IOException:java.lang.IllegalArgumentException: Can not create a Path from an empty string` - **原因**:分区或表不存在,或路径为空。 - **解决方法**:检查表名、分区名和路径是否正确。 ### 4. 配置问题 - **错误示例**:`FAILED: SemanticException [Error 10004]: Line 1:17 Invalid table alias or column reference` - **原因**:列名或别名错误,或UDF未注册。 - **解决方法**:检查列名和UDF注册情况。 ### 5. 性能问题 - **错误示例**:任务长时间运行无结果,或报`GC overhead limit exceeded`。 - **原因**:SQL写法低效(如引用[3]的`count(distinct)`在大数据量时)。 - **解决方法**: - 改写SQL(如用`GROUP BY`代替`count(distinct)`)。 - 增加资源或调整参数。 ### 6. 执行引擎问题 - **错误示例**:`org.apache.tez.dag.api.SessionNotRunning: TezSession has already shutdown` - **原因**:Tez会话关闭,可能由于任务失败或资源不足。 - **解决方法**:检查任务日志,调整资源配置。 --- ### 常见错误排查步骤 1. **查看日志**:使用`grep`搜索错误关键词(如`ERROR`、`FAILED`)及其上下文(如`grep -C 5 'ERROR' hive.log`)。 2. **检查资源配置**:确认YARN和Hive资源配置合理。 3. **优化SQL**: - 避免`select *`,只选择必要列。 - 将小表放在Join左边(引用[2])。 - 用`GROUP BY`代替`count(distinct)`(引用[3])。 4. **处理空值**:对可能为NULL的结果做默认值处理(如引用[4])。 --- §§ 相关问题 §§ 1. 如何解决Hive SQL的`OutOfMemoryError`? 2. 如何优化Hive SQL中的`count(distinct)`操作? 3. 如何排查Hive on Tez/Spark的任务失败问题? 4. Hive SQL中Join操作的数据倾斜有哪些解决方案? 5. 如何配置Hive以减少常见错误的发生?</think>### Hive SQL 常见错误信息及解决方案 #### 1. **语法解析错误** ```sql FAILED: ParseException line 1:7 cannot recognize input near 'SELCT' '*' 'FROM' ``` - **原因**:SQL关键字拼写错误(如SELCT代替SELECT) - **解决**:检查语法规范,使用IDE自动补全功能[^1] #### 2. **资源不足错误** ```sql Container killed by YARN for exceeding memory limits. 5.8 GB of 5.5 GB physical memory used ``` - **原因**:数据倾斜或内存配置不足 - **解决**: - 优化Join顺序(小表放左边)[^2] - 增加配置:`set mapreduce.map.memory.mb=8192;` #### 3. **数据倾斜错误** ```sql Reduce phase stuck at 99% for over 2 hours ``` - **原因**:特定key的数据量过大 - **解决**: - 启用倾斜优化:`set hive.optimize.skewjoin=true;` - 拆分大key:`select case when key='A' then rand() else key end` #### 4. **空值处理错误** ```sql NULL value in max(id) causes script failure ``` - **原因**:聚合函数返回NULL未处理(如引用[4]场景) - **解决**: ```bash maxid=$(hive -e "SELECT coalesce(max(id),0) FROM table") ``` #### 5. **性能问题** ```sql Query runs for 6+ hours on 1TB dataset ``` - **原因**:低效操作(如count(distinct)) - **解决**: - 改写count distinct → group by[^3] ```sql SELECT count(1) FROM ( SELECT order_id FROM orders WHERE dt BETWEEN '20221001' AND '20221010' GROUP BY order_id ) t ``` #### 6. **元数据错误** ```sql Table not found: default.orders ``` - **原因**:表不存在或元数据不同步 - **解决**: - 刷新元数据:`MSCK REPAIR TABLE orders;` - 检查表位置:`describe formatted orders;` #### 7. **权限错误** ```sql Authorization failed: No write permission on /warehouse ``` - **原因**:HDFS权限不足 - **解决**: ```bash hadoop fs -chown hive_user /warehouse/orders ``` #### 8. **格式错误** ```sql Cannot deserialize value: 2023-13-01 as Date ``` - **原因**:数据类型不匹配 - **解决**: - 显式转换:`CAST(col AS DATE)` - 检查数据质量:`SELECT count(*) FROM tbl WHERE col IS NULL` --- ### 错误排查工具 1. **日志分析**: ```bash grep -C 10 'ERROR' /var/log/hive/hiveserver2.log ``` 2. **EXPLAIN 分析**: ```sql EXPLAIN SELECT ... -- 查看执行计划 ``` 3. **YARN 日志**: ```bash yarn logs -applicationId app_123456789_0001 ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值