hive数据的追加（不同文件格式或压缩方式文件）

最新推荐文章于 2024-08-01 04:39:13 发布

原创最新推荐文章于 2024-08-01 04:39:13 发布 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

大数据同时被 2 个专栏收录

74 篇文章

订阅专栏

44 篇文章

订阅专栏

1 首先根据文件格式新建一个特定切分的表
如果数据是以tab键分割时
新建表
CREATE EXTERNAL TABLE tmp.ods_test(
id bigint,
amount double,
available_interest double,
)
row format delimited fields terminated by ‘\t’ stored as textFile
LOCATION ‘hdfs://we-hdfs/home/hdfs/zhaolcDev/finance_test.txt’

采用 insert into 的方式将数据插入不同格式表中
INSERT INTO TABLE ods.ods_log partition (dt=‘2019-01-29’)
select * FROM tmp.ods_test；

注意
1.：目标表为lzo 等压缩格式时设置压缩方式
即为：
SET hive.exec.compress.output=true;
SET mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;
INSERT INTO TABLE ods.ods_log partition (dt=‘2019-01-29’)
select * FROM tmp.ods_test；

2、线上操作时：本人建议新建一个分区将数据先写入分区中，让后将location 路径下的文件（可能是lzo压缩文件）拷贝到缺失数据的分区路径下避免污染数据
INSERT INTO TABLE ods.ods_log partition (dt=‘2019-01-29’)
select * FROM tmp.ods_test；

3、insert overwrite table 和 INSERT INTO TABLE一个数数据重写（旧数据会被删除）另一个数数据追加。

修改表的压缩方式
ALTER TABLE ods_log
SET FILEFORMAT
INPUTFORMAT “com.hadoop.mapred.DeprecatedLzoTextInputFormat”
OUTPUTFORMAT “org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat”;

lzo结构表数据查询时使用count(*)有数据，但是select * 是没有数据的

说明已将 LZO压缩过的表数据导入一个没有被压缩过表内，建议数据重新导入

也可以通过
SET hive.exec.compress.output=true;
SET mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;
设置压缩方式查询

博客等级

码龄8年

194
原创

147
点赞

877
收藏

1万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: spark-streaming 获取 flume 传递的header

下一篇：: shell解析读取文件的每一行

最新评论

hive的数据倾斜解决（Map端、reduce 端、join中）
lbwnb_12138: 有些不理解：由于某些Map Instance 读取文件的某个值特别多而引起长尾，主要是指Count Distinct 操作。疑问：map是按切片来读的，就算某个task你读某的某个热点值比较多，每个task读的整体量是差不多的，为啥会导致倾斜？
hive分析相关窗口函数二之排序相关
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
flink window窗口函数源码分析
coder chen: 写的什么鬼
spark client mode cluster mode 区别与选择
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
HIVE常用函数速查
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。