Spark读取Hbase数据保存为csv和parquet格式

最新推荐文章于 2024-10-26 22:49:07 发布

原创

最新推荐文章于 2024-10-26 22:49:07 发布 · 936 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#nosql

本文介绍如何使用SparkSQL的DataFrame从HBase读取数据，并将其保存为CSV或Parquet格式。通过Scala实现，详细展示了配置参数、数据转换及保存过程。

利用Spark SQL的DataFream 将hbase表数据保存为csv或者parquet格式文件。

代码：

package com.cbp.spark_hbase

import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.log4j.{
   
   Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{
   
   DataFrame, Row, SparkSession}
import org.apache.spark.sql.types.{
   
   StringType, StructField, StructType}
import scala.collection.mutable.ArrayBuffer

object SparkReadHbaseSaveCsvOrParquet {
   
   
  Logger.getLogger("org").setLevel(Level.INFO)

  def main(