使用python完成Kafka+sparkstreaming+elasticsearch

最新推荐文章于 2023-02-27 20:16:49 发布

原创

最新推荐文章于 2023-02-27 20:16:49 发布 · 置顶 · 515 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #kafka #elasticsearch

本文分享了一位开发者使用Python实现的Kafka+SparkStreaming+Elasticsearch数据处理流程。该代码能够从Kafka接收数据，经过处理后存储至Elasticsearch，实现在Kibana上查看数据。尽管Spark官方未提供Python接口直接写入ES，但此方案成功实现了跨系统的数据流转。

在网上找了很久python的Kafka+sparkstreaming+elasticsearch的代码找不到，基本都是scala或者java的（好像是spark自己本身提供了库给java和scala写入ES?然而并没有可以提供给python的😓），所以自己写了一个，能正常运行，但是感觉这样写不太好，想发出来和大家交流一下。

from elasticsearch import Elasticsearch
from pyspark.streaming import StreamingContext
from pyspark.sql.session import SparkSession
from pyspark.sql import SQLContext
from pyspark.streaming.kafka import KafkaUtils
import os

os.environ['JAVA_HOME'] = "/usr/local/java/bin"
es = Elasticsearch(['Master:9200'])

# 创建传入Es的数据
def create_send_data(lines)