PySpark写入数据到Hbase的辛酸经历

最新推荐文章于 2023-05-04 23:00:00 发布

原创

最新推荐文章于 2023-05-04 23:00:00 发布 · 3.3k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hbase #spark

本文详细介绍了使用Pyspark进行数据处理，并将其写入Hbase的两种方法：一是利用hortonworks的shc框架，二是使用RDD的saveAsNewAPIHadoopDataset方法。过程中遇到的jar包冲突、配置缺失及版本兼容性问题均有详尽记录。

Pyspark + Hbase

环境配置：
Python:3.7.4
Spark:2.4.4
Hbase:2.2.3

前言：
首先，本人建议使用scala来做有关spark的开发，这是和前辈讨论他们给的建议，或者你们可以参考一下这篇文章.
这个真的折磨了我好久（中途还接到需求，断断续续弄了好久，多久就不告诉你们了，免得你们笑我菜），真的辛酸。里面我的做法肯定有很多漏洞，而且还没完全解决，我会持续更新。另外，各位大神，如果友好的建议，评论区提点一下，万分感谢。
另外，本篇可能会有点长，不喜勿喷。。。。

数据格式：
一天一个压缩包（ZIP），然后里面都是很多个TXT文件，分隔符是 “|” ，每个TXT文件大概是9000条数据这样。

前言

我不知道大家有没有这种感觉，反正我是有，就是随着版本的迭代升级，大数据的组件对Python越来越不友好，学习java和scala对于大数据开发来说真的很重要。对于我这种只会python的菜鸡还真的是刺激。。。
使用spark写入hbase有两个方法，一个是使用hortonworks的开源框架shc，另一个是使用RDD自带的方法saveAsNewAPIHadoopDataset存入到hbase中。

hortonworks的开源框架shc

先说说这个。
首先你需要下载个shc的依赖包shc-core-1.1.1-2.1-s_2.11.jar：spark hbase connect.
版本的选择自己判断把，这个链接往前翻能找到其他版本。
如果你想自行编译这个包，也可以，从这里找到源码下载自己打包：github源码网址.
我已经忘记我怎么找到的了，应该是这一个没错。
代码：

from pyspark import SparkConf
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

conf = SparkConf()
config = (("spark.executor.memory", "8g"),
          ("spark.executor.cores", "4"))
conf.setAll(config)
spark = SparkSession.builder.config(conf=conf).enableHiveSupport().getOrCreate()

def read_txt(sc):
    # input = sc.textFile("file:///home/data/demodata").map(lambda x: x.split('|'))
    # a_rdd = sc.textFile("file:///home/data/20200302").map(lambda x: x.split('|'))
    # df = input.toDF()
    df = spark.read.csv("file:///home/data/demodata", sep="|")
    return df

def write_to_hbase1(df):

    rename_df = df. \
        withColumnRenamed("_1", "PLA_INFO").\
        withColumnRenamed("_2", "DATE_TIME").\
        withColumnRenamed("_3", "KKJ").\
        withColumnRenamed("_4", "KKW").\
        withColumnRenamed("_5", "SPEED"