
Hbase
文章平均质量分 88
wangweislk
大数据金融
展开
-
Spark Bulkload(Java)
1、使用Spark通过Bulkload的方式导数据到Hbase 在未用Bulkload写Hbase时,使用RDD进行封装为Tuple2的KVRDD,然后通过saveAsNewAPIHadoopDataset写Hbase,非常慢,400G的数据大概写了2H+还没写完,后面没有办法就考虑使用Bulkload来导入数据。 在测试之前网上很多资料都是Scala版本的,并且实现都是单个列来操作,实际原创 2017-10-25 11:31:39 · 3996 阅读 · 1 评论 -
HBase性能调优
本文就HBase的优化做一些总结,同时也借鉴了网上的一些方法,设计到从表的设计优化,读写,系统配置优化等 1、表的设计优化 1.1、预分区 默认情况下,在创建表的时候会自动创建一个region分区,当写入数据时候,所有的HBase客户端都会往这个region写数据,直到这个region的达到设置的阈值(默认是256M,可以通过hbase.hregion.max.filesize设置)才进行s原创 2018-01-10 11:28:31 · 1341 阅读 · 0 评论