Spark 批量写数据入HBase

本文介绍了如何使用Spark 1.3.0将7000万条数据在20分钟内高效导入HBase 0.98.1,避免使用newAPIHadoopRDD接口。关键在于关闭自动提交、设置缓存大小和分片后的flushCommits操作。通过调整这些参数,可以显著提高大数据量导入的效率,确保数据完整性和速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

介绍

  工作中常常会遇到这种情形,需要将hdfs中的大批量数据导入HBase。本文使用Spark+HBase的方式将RDD中的数据导入HBase中。没有使用官网提供的newAPIHadoopRDD接口的方式。使用本文的方式将数据导入HBase, 7000W条数据,花费时间大概20分钟左右,本文Spark可用核数量为20。

本文使用spark版本为1.3.0,hbase版本为0.98.1

hbase表结构为:表名table,列族Family,列为qualifier。

代码如下:

val readFile = sc.textFile("/path/to/file").map(x => x.split(","))
val tableName = "table"
readFile.foreachPartition{
  x=> {
    val myConf = HBaseConfiguration.create()
    myConf.set("hbase.zookeeper.quorum", "web102,web101,web100")
    myConf.set("hbase.zookeeper.property.clientPort", "2181")
    myConf.set("hbase.defaults.for.version.skip", "true")
    val myTable = new HTable(myConf, TableName.valueOf(tableName))
    myTable.setAutoFlush(false, false)//关键点1
    myTable.setWriteBufferSize(3*1024*1024)//关键点2
    x.foreach { y =&
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值