hive 添加字段导致数据出错

最新推荐文章于 2024-11-18 15:01:09 发布

原创最新推荐文章于 2024-11-18 15:01:09 发布 · 2.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hql #数据

hive 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了解决在已存在的历史表中新增字段后部分值显示为null的问题。通过分析发现是由于创建表时未统一字符编码导致，并提供了通过重新创建表并迁移数据的解决方案。

【数据查询为null】

有一张表是已经存在的历史表：表名为code，

由于业务需要新增加了一个字段：

alter table code add COLUMNS (tag_sentence string comment '分割的句子，test') ；

然后load相对应的数据，查询发现 tag_sentence 的值有的是显示正确的，有的显示为null

解决方案：

在创建表code时，忘记有没有统一字符编码，但是在 show create table code 时显示行列分割符都是乱码；

所以是创建表没有统一字符编码造成的；

把原先的code表改名备份，重新创建了新表，迁移数据。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dear_csdn

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hive 添加字段，字段值错位问题

cuichunchi的博客

11-02

2671

hive中在表结构中添加字段，并将字段指定到于业务库相对的位置： alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply add columns (storage_id bigint comment '仓库id') cascade; alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply change storage_id storage_id bigi...

Spark读取hive表元数据异常

shuijing55hi的博客

08-06

1181

在ETL接入数据时，需要对表新增字段，因为表的特殊性质，存在实时接入更新三个月历史数据的情况，故该表的小文件很多，在通过hive增加字段的时候，spark没有立即生效，导致用hive命令修改元数据后, hive表的元数据信息和spark-SQL的schema不一致。考虑到之前执行refresh的时候有进行小文件合并，中间有杀掉小文件合并进程，有可能是影响了refresh，故再进行了小文件合并后又重新执行了refresh，才成功了，且最后一个是通过spark shell执行的。命令用于刷新表的元数据。

参与评论您还未登录，请先登录后发表或查看评论

hive表添加字段/修改字段导致的查询报错

一定要努力努力再努力的博客

11-01

5713

一般由于业务需要，会对hive的表有增加字段的操作，如下： ALTER TABLE 库名.表名 add columns (字段名字段类型 comment '注释') ; 但是上面这种语法只能是对表的当前和以后新的分区生效，若存在历史分区，那么MySQL上的元数据信息没有修改。若查询历史分区，就会报上面的return code 2 解决方案： 1、直接在添加字段的时候加上 CASCADE ALTER TABLE 库名.表名 add columns (字段名字段类型 comment '注释') .

hive添加字段后的查询异常ArrayIndexOutOfBoundsException

qq_30868737的博客

06-15

2782

hive添加字段 alter table ods_wsp_dw_fact_point add columns (ods_datecreated STRING COMMENT ‘ods数据创建时间’); 客户端查询报错 hue端查询报错 Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask 解决方案：执行sql前，

hive add columns 后查询不到新字段数据的问题

探索数据奥秘的博客

10-10

762

可以认为hadoop 的文件管理粒度对于分区表是到分区粒度的，是比表更细一个粒度的，所以alter table test1 add columns(department string comment ‘部门’) 这个命令不会改变历史分区的元数据信息，这种情况下即便insert overwrite命令更新了hdfs的数据，再使用select命令时仍然根据旧的元数据信息获取数据，所以获取不到新增字段；分区表add columns 查询不到新增字段数据的问题；有数据库、表、分区、字段、存储等多个元数据管理信息；

hive分区表增加字段新增字段值为空的bug

热门推荐

men子烦高的烂笔头

11-20

1万+

关键字： hive, partition, add column hive JIRA：https://issues.apache.org/jira/browse/HIVE-6131 最近在查hive版本问题，发现在hive1.1.0和hive1.2.1上，分区表新增字段后新增字段值为空的情况。网上查了资料，提供了两种解决办法： 1. 修改hive元数据SDS表的CD_ID字段，

Hive 表中数据的增删查改操作深度剖析与实战应用

xjiet的博客

11-18

1499

通过本文对 Hive 表中数据的增删查改操作的全面且深入的介绍，我们详细了解了每一种操作的具体语法、适用场景、注意事项以及丰富的代码示例和对比分析。在实际的大数据处理与分析工作中，根据不同的业务需求和数据情况，灵活且准确地运用这些操作方法是至关重要的。同时，要始终牢记数据的重要性，在执行如删除、更新等可能影响数据完整性的操作时，务必谨慎小心，提前做好备份和验证工作，避免因误操作带来的数据丢失、数据不一致等严重问题。

hive数据仓库

qq_44676946的博客

03-15

3558

数据仓库-Hive 数据仓库 1.1. 基本概念英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。数据仓库是存数据的，企业的各种数据往里面存，主要目的是为了分析有效数据，后续会基于它产出供分析挖掘的数据，或者数据应用需要的数据，如企业的分析性报告和各类报表等。可以理解为：面向分析的存储系统。 1.2. 主要特征数据仓库是面向主题的（Subject-Oriented ）、集成的（Integ

mysql数据血缘分析,数仓字段血缘解析实现—hive版

weixin_39623050的博客

03-18

2224

数仓字段血缘解析实现—hive版数仓字段血缘解析实现—hive版?【本文大纲】1、字段血缘分析的意义2、实现方案选择3、实现过程4、总结字段血缘分析的意义数仓经常会碰到的两类问题：1、两个数据报表进行对比，结果差异很大，需要人工核对分析指标的维度信息，比如从头分析数据指标从哪里来，处理条件是什么，最后才能分析出问题原因 ——数据回溯问题2、基础数据表因某种原因需要修改字段，需要评估其对...

hive实训项目之电商数据分析

qq_58132795的博客

01-13

5708

hive实训项目---------电商数据分析题干: 某大型电商公司从后台服务器收集到30W条的日志用户行为数据，经过数据初步清洗得到数据如下表sale_user.zip，假如你是该公司一员开发工程师，需要你利用大数据集群为公司存储、计算、分析这些数据，并给出分析结果。需求如下： 1.在Linux系统下将用户行为数据sale_user.zip将解压（解压后文件为sale_user.csv）。（8分）采用MR程序完成数据清洗： a) 将数据集中的标题行删除； b) 在数据集中添加一个表示省份

hive增加字段后对应字段hive查不出来

summer089089的博客

12-29

2068

1.增加字段后直接查看文件有值，但是hsq查出来就没有值，但是impala查询是有值的 hive建表语句 CREATE EXTERNAL TABLE nretail_ability_order.retail_report ( sub_order_no STRING COMMENT '订单号', order_source STRING COMMENT '订单来源:1.T销客 2.方舟 3.方舟移动端 8.T云店', company_name STRING COMMENT '开单客户商务中心', custome

使用navicat创建数据库时，字段名自动加““导致查询报错。

weixin_42078729的博客

11-18

885

遇到问题：使用navicat创建数据表时，字段名会自动加上双引号，导致使用hibernate框架时字段映射失败解决方案：将数据库字段名称全部换成大写

hive orc表增加字段之后，hetu查询报错

地推日记

08-28

1043

问题现象：某集群hive表新增字段，然后插入数据。使用hive查询正常，但是使用hetu查询报错。报错堆栈如下： Caused by: io.prestosql.spi.PrestoException: Error opening Hive split hdfs://hacluster/user/xxx/hive/xx/xxx/sysp_year=2021/sysp_month=07/sysp_day=16/part-00000-83acb0c2-e980-4e78-87d4-b6aacc70ce68.

hive sql表中敏感字段查询报ParseException错误

爱折腾的小土豆的博客

07-02

1725

hive sql表中敏感字段查询报cannot recognize input near ‘time’ ‘string’ ‘,’ in column name or constraint 解决方法：在sql中把这个敏感字段加反引号解决

hive分区表增加字段会导致新增字段无法显示值的BUG

xiao_jun_0820的专栏

05-07

1万+

对hive分区表新增字段后，在执行插入分区的动作，会发现其实数据文件中已经有新字段值了，但是在查询的时候新字段的值还是显示为null。比如我们做一个简单的问题重现我们先创建一个分区表xj_test1,往分区dt=201501中插入一条数据： create table xj_test1(a string,b string) partitioned by ( dt string) row

hive中查询整张表信息时候可以出来，但是查询某个字段时候就报错了，哪位大神说下。

qq_41058304的博客

04-03

1457

hive (testdb)> create external table student( > student map<string,string> comment "学生信息", > class map<string,string> comment "课程信息", > teac...

记一次hive查询报错的问题

努力努力再努力！的博客

07-13

1460

记一次hive查询报错的问题 CDH中安装完hive后，执行select count(*) from table,居然报错了进入yarn的webui页面，查看对应的任务的logs 重点是这句： Error running local (uberized) 'child' : java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z 网上找了一圈，说是Mapreduce.

Hive alter table drop column 失败 mismatched input 'column' expecting PARTITION near 'DROP' in drop pa

BalterNotz的博客

08-08

4651

ALTER TABLE aaa DROP column (name); 失败：语法校验失败! line 1:49 mismatched input 'column' expecting PARTITION near 'DROP' in drop partition statement 原因及解决方法： http://www.it1352.com/842613.html ...

Hive分区表增删字段（解决alter table失败问题）

大数据开发实践者

12-02

2533

假设我们有个内部表如下： CREATE TABLE `db_name.user_table_name`( `id` string, `user_name` string, `uid` string) PARTITIONED BY (`date` string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' COLLECTION ITEMS TERMINATED BY '\002' STORED AS PARQUET; 一般情况下，如果

hive通过sqooop采集postgresql数据

最新发布

04-23

<think>好的，我现在需要帮助用户解决如何通过Sqoop将PostgreSQL的数据导入到Hive中。首先，我得回忆一下Sqoop的基本用法和相关配置。用户可能已经看过一些文档，但可能在实际操作中遇到了问题，比如数据量增多或者格式错误，所以需要特别注意这些方面。首先，Sqoop导入数据到Hive通常有两种方式：一种是先导入到HDFS，再加载到Hive表；另一种是直接导入到Hive。用户可能希望直接导入到Hive，这样更高效。不过，直接导入需要确保Hive表已经存在，或者使用Sqoop自动创建表结构。我需要确认用户是否已经创建了表，或者是否需要Sqoop根据PostgreSQL的表结构来生成Hive表。接下来，用户提供的引用中提到了一些常见问题，比如特殊字符导致的数据错位或行数增加。例如，如果数据中包含换行符或分隔符，可能会导致Hive中的数据分割错误。因此，在Sqoop命令中需要添加参数来处理这些情况，比如--hive-drop-import-delims或者--hive-delims-replacement。这些参数能帮助清除或替换掉这些特殊字符，避免数据问题。然后，连接参数的配置也很重要。用户需要提供正确的JDBC连接字符串，包括PostgreSQL的地址、端口、数据库名，以及用户名和密码。同时，可能需要指定schema，特别是如果PostgreSQL的表不在默认的public schema下，需要使用--schema参数。另外，数据的分隔符设置也需要注意。Hive默认使用\001作为字段分隔符，但有时候用户可能会指定其他分隔符，比如\t。这时，在Sqoop命令中需要用--fields-terminated-by来指定，并且确保Hive表的定义也使用相同的分隔符，否则会导致数据无法正确解析。还有并行导入的问题，-m参数控制mapper的数量。如果数据量较大，增加mapper的数量可以提高导入速度，但需要确保PostgreSQL允许足够的连接，并且数据有合适的分割列（--split-by）。如果表没有主键或者合适的列，可能需要设置-m 1来禁用并行导入。最后，异常处理和数据清洗也是需要考虑的。比如处理NULL值，Sqoop提供了--null-string和--null-non-string参数来指定NULL值的替换符，通常设置为Hive中的默认NULL表示\N。同时，用户可能需要处理数据中的特殊字符，避免导入时出错。总结一下，用户的Sqoop命令需要包含以下几个关键点：正确的连接信息、处理特殊字符的参数、合适的分隔符设置、NULL值处理、以及可能的并行配置。此外，还需要指导用户如何验证导入的数据是否正确，比如检查Hive表中的数据量和格式是否符合预期，或者是否存在重复数据。如果用户遇到数据量增多的问题，可以建议他们检查是否有换行符或分隔符未正确处理，并相应调整Sqoop参数。</think>### Sqoop从PostgreSQL导入数据到Hive的完整指南 #### 一、基础配置步骤 1. **环境准备** - 确保已安装Sqoop 1.4.7+并配置Hadoop、Hive环境变量 - 将PostgreSQL的JDBC驱动（如`postgresql-42.2.5.jar`）放入`$SQOOP_HOME/lib`目录[^1] 2. **基础导入命令** ```bash sqoop import \ --connect jdbc:postgresql://IP:PORT/dbname \ --username youruser \ --password yourpwd \ --table source_table \ --hive-import \ --hive-table target_db.target_table \ --fields-terminated-by '\001' \ --hive-drop-import-delims \ -m 1 ``` #### 二、关键参数解析 1. **数据清洗配置** - `--hive-drop-import-delims`：自动删除`\n`、`\r`、`\01`避免数据错行[^3] - `--null-string '\\N' --null-non-string '\\N'`：统一NULL值表示 2. **Schema处理** ```bash -- --schema your_schema_name # PostgreSQL的schema声明 --hive-overwrite # 覆盖已存在的Hive表数据 --create-hive-table # 自动创建Hive表（需表不存在） ``` 3. **优化参数** ```bash -m 4 # 并行任务数（需配合--split-by） --split-by id # 指定分割字段 --direct # 使用PostgreSQL的快速导出模式 ``` #### 三、完整示例（含数据清洗） ```bash sqoop import \ --connect jdbc:postgresql://10.10.10.1:5432/prod_db \ --username admin \ --password secret \ --table sales_data \ --where "order_date >= '2023-01-01'" \ --hive-import \ --hive-table dw.sales_fact \ --fields-terminated-by '\t' \ --hive-delims-replacement " " \ --null-string '\\N' \ --null-non-string '\\N' \ --compress \ --compression-codec org.apache.hadoop.io.compress.SnappyCodec \ -m 4 \ --split-by order_id ``` #### 四、验证与调试 1. **数据验证方法** ```sql SELECT COUNT(*) FROM dw.sales_fact; -- 检查数据量一致性[^3] SELECT * FROM dw.sales_fact LIMIT 10; -- 检查字段对齐 ``` 2. **常见问题处理** - **数据量暴增**：检查是否遗漏`--hive-drop-import-delims`参数[^3] - **字段错位**：确认Hive表与源表字段顺序一致，分隔符匹配 - **连接超时**：在连接URL后添加`?socketTimeout=300`