HIVE中导入文件后数据量变多原因和去除换行符的解决办法

最新推荐文章于 2024-08-21 11:17:08 发布

原创

最新推荐文章于 2024-08-21 11:17:08 发布 · 1.6w 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#hive

在将Excel数据导入Hive时，数据量不匹配，原本8000条变为10000多条。原因是Excel中的换行符在Hive中被解析为新行。解决方法是在Excel中使用CLEAN()函数去除换行符，然后将处理后的数据粘贴为数值，避免函数公式影响。

在使用excel导入文件进入hive的时候，一切顺利，但是导入后查询数据，发现数据量变多了，比如：一开始excel中的数据量是8000条，导入hive后，查询的数据变成10000多条，数据量在导入后变多了。于是查找原因

首先从hive建的表开始查起，表的建表语句如下下所示：

create table if not exists TMP_T1
(
 T1 VARCHAR(100) comment 't1',
 T2 VARCHAR(100) comment 't2',
 T3 VARCHAR(100) comment 't3'
)
COMMENT '临时表1'
ROW FORMAT DELEMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS Parquet;

从建表语句中就可以看到，这个表的数据的列分隔符是'\001',行的分隔符是'\n'，在我们导入数据后会按照这样的分割格式进行分割和存储。如果我们的数据如下所示：

col1

测试1

的结果

测试2的结果

上面的格式导入到hive中，hive查询出来的数据是怎么样的呢？

id	col1
1	测试1

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

这孩子谁懂哈

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【hive-3.1.3】ORC 格式的表和 text 格式的表，当分区的字段数量和表的字段数量不一致，检索结果不相同

houzhizhen的专栏

11-09

1706

ORC 格式的表，和 text 格式的表，如果分区的字段数量和表的字段数量不一致，则 select 出的内容不相同。

hive表字段里有换行符，导致一行变多行或者字段错乱

eyeofeagle的博客

09-24

9430

1，问题 #################### hbase数据：字段有换行符号 hbase(main):001:0> get 'test','r2' COLUMN CELL f:age timestamp=1599799051999, value=23 f:name timestamp=1600

参与评论您还未登录，请先登录后发表或查看评论

Hive数据处理中去除字段中的换行符、分割符

热门推荐

qq_40389620的博客

09-01

1万+

demo: regexp_replace(需要处理的字段名称,'\\n|\\r|\\t','') as 重新命名

【Hive实战】Hive元数据存储库数据增多的分析

有问题的请私信或关注v【技术印记】留言

05-09

913

对超过2千万数据量的表需要进行分析

hive数据量不一致，表1是5条，导入到表2，变成了10条

qq_40382400的博客

01-17

551

hive的数据里面，有脏数据，比如某个字段中的数据有换行符、\n。如果hive设置的参数，换行符正好是\n，那么数据就会变多。

Hive的查询、数据加载和交换、聚合、排序、优化

Byyyi耀的博客

12-19

1453

Hive查询、数据加载和交换、聚合、排序、优化

sqoop mysql数据进hive 数据条数膨胀变多变成脏数据

qq_34897849的博客

10-11

756

当mysql表中数据含有 \r 或者\n 导入数据到hive会造成数据条数的膨胀，出现大量的脏数据，因为hive表默认的行分隔符时 \n 解决方案去除mysql中的 \r \n #mysql建表 create table student(id int(10),name varchar(255)); insert into student values(1,'{yang\r \n ...

Hive实战 —— 电商数据分析(全流程详解真实数据)

Byyyi耀的博客

01-24

1万+

Hive实战 —— 电商数据分析

hive数据仓库

qq_44676946的博客

03-15

3561

数据仓库-Hive 数据仓库 1.1. 基本概念英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。数据仓库是存数据的，企业的各种数据往里面存，主要目的是为了分析有效数据，后续会基于它产出供分析挖掘的数据，或者数据应用需要的数据，如企业的分析性报告和各类报表等。可以理解为：面向分析的存储系统。 1.2. 主要特征数据仓库是面向主题的（Subject-Oriented ）、集成的（Integ

将CSV文件导入到hive数据库

weixin_42981609的博客

09-10

1809

将csv文件导入hive后出现了所有的字段只显示在新建的表的第一个字段中，后面的字段全是null. 出现这种的原因是hive以行分隔数据，需要修改为按逗号’ , ‘ 进行分隔读取，具体操作如下，首先在hive中创建自己的table, 并且设置以逗号分隔。 create table IP(ip varchar(30), country varchar(30), province varch...

hive建表create table xxx as select数据增多

最新发布

qq_45626867的博客

08-21

340

hive数据备份数据增多

hive sql 将查询数据导入csv文件中因字符串中有换行符导致出现文段换行的问题

Alan3344的博客

04-08

3354

一、此篇博客主要记录在此次从hive表中查询数据导入到csv文件中，因为某个字符串字段中含有大量的换行符导致存入在csv文件中的数据出现了换行、错位的情况，以此记录二、最终实现sql如下： hive -e "set hive.cli.print.header=true; SELECT id,msg_id,regexp_replace(msg_title,'\\\\n|\\n|\\r|\\\...

SQL去除回车符，换行符，空格和水平制表符

weixin_33720452的博客

07-05

1724

MS SQL去除回车符，换行符，空格和水平制表符，参考下面语句，一般情况是SQL接受富文本或是textarea的内容。 REPLACE(REPLACE(REPLACE(REPLACE([fieldName],CHAR(13),''),CHAR(10),''),CHAR(9),''),' ','') 其中： char(9) 水平制表符 char(10) 换...

mysql导数据到hive后换行符冲突的解决

sghuu的博客

09-03

1890

在采用常用的数据迁移工具时，常会采用sqoop和dataX工具，在数据迁移时难免会遇到一些特殊字符的处理，比如hive里的换行符\n无法更改，而原数据源难免的会存在一些数据格式会存储\n,如mysql里的mediumtext格式就会存储有\n，这是后数据存储进hive后就不可比遍的与hive的换行符冲突，造成数据的切分错乱。解决方案：方案一：把换行符替换成空字符串，sqoop中有替换的参数，但是datax中没有。如下将下将换行符换成 ‘\n’，在sqoop的配置李添加下列参数 –hive-deli

Hive表字段值中存在换行符，查询结果混乱进而导致插入失败_hive 插入的数据有换行

2401_84182073的博客

04-11

1003

将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

【Hive】hive特殊分隔符处理

人生所向，皆是美好

01-05

1593

文章目录HIVE 特殊分隔符处理1. 使用 RegexSerDe 通过正则表达式来抽取字段2. 通过自定义 InputFormat 解决特殊分隔符问题 HIVE 特殊分隔符处理补充：hive 读取数据的机制：首先用 InputFormat<默认是：org.apache.hadoop.mapred.TextInputFormat >的一个具体实现类读入文件数据，返回一条一条的记录...

使用Hive时几个重要配置

麦当当的博客

04-30

645

【代码】使用Hive时几个重要配置。

hive：导出数据记录中null被替换为\n的解决方案

weixin_34408717的博客

01-19

3524

在hive中，一般情况下通过 1 use my_hive_db; 2 set hive.merge.mapfiles=true; 3 set hive.merge.mapredfiles=true; 4 set hive.merge.size.per.task= 1000000000; 5 set hive.merge.smallfiles.avgsize= 1000000000; ...

Hive load数据到\t分隔的表，字段映射错误怎么解决？

Top5软件工程硕士，先后在京东、字节从事多年Java后端开发、实时和离线大数据开发

01-31

2302

表结构如下： CREATE EXTERNAL TABLE `tmp.shop_detail_tb`( `id` string COMMENT '', `name` string COMMENT '', `type` string COMMENT '', `amt` string COMMENT '', `month` string COMMENT '' ) PARTITIONED BY ( `dt` string) ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'