RCFile SequenceFile and Avro comparison Test

Hive原始文件1421M,按snappy压缩之后结果:

 

 

 

 

 

select count(*) from table

select count(*) from (select key from table where key='') a;

 

file type

table name

row number

Map个数

File Size(M)

count(*) (S)

count(key) (S)

HDFS Read

text

test_text2

58336344

7

852.2

29.8

29.9

852.2

sequence

test_sequence

58336344

4

906.1

42.6

41.9

916.4

rcfile

test_rc

58336344

4

826.8

34

34.4

754.3

avro

test_avro2

58336344

3

590.9

75.8

90.7

591

Hadoop Cluster Network Usage:

Hadoop Cluster CPU Usage:

结论:

  1. RCFile在读速度是最高的。
  2. AVRO File最占用CPU。
  3. RCFile HDFS read在输入一样的情况下会比较低。
  4. AVRO file hive表不支持增加列(例子:alter table test_avro add columns(x int)),其他都是支持的。

  5. AVRO压缩效果最好(压缩使用的CPU最多)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值