hadoop之使用LZO压缩文件并支持分片

最新推荐文章于 2022-07-31 15:33:26 发布

skwang_君永夜

最新推荐文章于 2022-07-31 15:33:26 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop 文章标签： lzo hadoop lzop index

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_32641659/article/details/89339471

文章目录

1.安装lzo以及生成测试数据

1.1生成未压缩的测试数据

先生成一个400M左右的测试数据，这样在使用lzo压缩后就能保证压缩文件大小大于数据块大小，方便后续测试分片效果。我是通过 cat a >> b,cat b >> a 方式快速实现的数据生成。
测试数据链接:

链接：https://pan.baidu.com/s/1SdW8Nkx-mvrSaoQ2A0U6jA  提取码：o5pn

1.2安装lzo相关工具

lzo格式文件压缩解压需要用到服务器的lzop工具，hadoop 的native库（hadoop checknative是没有的lzo,zip相关信息）并不支持

#检查是否有lzop命令，我这里显示是有的，说明安装过了lzop
[hadoop@hadoop001 ~]$ which lzop
/usr/bin/lzop

#若没有执行如下安装命令
[root@hadoop001 ~]# yum install -y svn ncurses-devel
[root@hadoop001 ~]# yum install -y gcc gcc-c++ make cmake
[root@hadoop001 ~]# yum install -y openssl openssl-devel svn ncurses-devel zlib-devel libtool
[root@hadoop001 ~]# yum install -y lzo lzo-devel lzop autoconf automake cmake

1.3使用lzop工具压缩测试数据

lzo压缩：lzop -v file
lzo解压：lzop -dv file

#压缩后文件后缀名为.lzo
[hadoop@hadoop001 click]$ ll -h
total 472M
-rw-r--r--. 1 hadoop hadoop 472M Apr 14 05:49 page_views.dat
[hadoop@hadoop001 click]$ lzop -v page_views.dat 
compressing page_views.dat into page_views.dat.lzo
[hadoop@hadoop001 click]$ ll -h
total 683M
-rw-r--r--. 1 hadoop hadoop 472M Apr 14 05:49 page_views.dat
-rw-r--r--. 1 hadoop hadoop 212M Apr 14 05:49 page_views.dat.lzo

2.编译hadoop-lzo

2.1 获取hadoop-lzo源码

下载源码包，并上传到服务器

源码地址：https://github.com/twitter/hadoop-lzo

2.2mvn编译源码

#解压
[hadoop@hadoop001 ~]$ unzip ~/source/hadoop-lzo-master.zip 

#mvn编译,等待出现BUILD SUCCESS则表示编译成功，几分钟左右
[hadoop@hadoop001 ~]$ cd ~/source/hadoop-lzo-master/
[hadoop@hadoop001

最低0.47元/天解锁文章

200万优质内容无限畅学

skwang_君永夜

博客等级

码龄10年

95
原创

91
点赞

512
收藏

94
粉丝

关注

私信

热门文章

分类专栏

ClickHouse 3篇
Linux 10篇
mysql 3篇
hadoop 28篇
HBase 2篇
Kafka
lucene 1篇
小工具 2篇
JVM 9篇
Spark 12篇
Hive 11篇
Oozie
Azkaban 1篇
架构及管理 3篇
Scala 1篇
大数据架构
Flume 3篇
Maxwell 2篇
CDH 2篇
Flink 8篇

展开全部收起

上一篇：: hadoop之生产常用的文件格式

下一篇：: hue之部署集成

最新评论

MaxWelll常用命令
烦恼么空: 我再maxwell文件夹下使用控制台输出报错，没有这个命令，这是为什么？
hive 之实战统计地区产品点击TOPN
& *: 访问次数表聚合了，那假如有一个product_id有两条记录，聚合成1条，记录click_count=2,然后在4.3里面进行join,但是product_info里面不是还是两条记录嘛，直接join按照笛卡尔积，生成的tmp_area_product_click_count_full_info，就是1x2,会有两条一模一样的记录，这不就出问题了嘛？所以我感觉很疑惑，你可以给我解答一下嘛？
Hadoop之使用MR编程实现join的两种方法
m0_67514328: 我在做mapreduce实验：join操作时输出结果为空，初学无从下手，希望您可以指点一下 Map-Reduce Framework Map input records=10 Map output records=0 Map output bytes=0 Map output materialized bytes=12 Input split bytes=198 Combine input records=0 Combine output records=0 Reduce input groups=0 Reduce shuffle bytes=12 Reduce input records=0 Reduce output records=0 Spilled Records=0 Shuffled Maps =2 Failed Shuffles=0 Merged Map outputs=2 GC time elapsed (ms)=170 CPU time spent (ms)=1070 Physical memory (bytes) snapshot=733970432 Virtual memory (bytes) snapshot=5903863808 Total committed heap usage (bytes)=508035072 Shuffle Errors BAD_ID=0 CONNECTION=0 IO_ERROR=0 WRONG_LENGTH=0 WRONG_MAP=0 WRONG_REDUCE=0 File Input Format Counters Bytes Read=139 File Output Format Counters Bytes Written=0
Maxwell之简介以及安装部署和使用
skwang_君永夜: 手动

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。