在网上找了很久python的Kafka+sparkstreaming+elasticsearch的代码找不到,基本都是scala或者java的(好像是spark自己本身提供了库给java和scala写入ES?然而并没有可以提供给python的😓),所以自己写了一个,能正常运行,但是感觉这样写不太好,想发出来和大家交流一下。
from elasticsearch import Elasticsearch
from pyspark.streaming import StreamingContext
from pyspark.sql.session import SparkSession
from pyspark.sql import SQLContext
from pyspark.streaming.kafka import KafkaUtils
import os
os.environ['JAVA_HOME'] = "/usr/local/java/bin"
es = Elasticsearch(['Master:9200'])
# 创建传入Es的数据
def create_send_data(lines)

本文分享了一位开发者使用Python实现的Kafka+SparkStreaming+Elasticsearch数据处理流程。该代码能够从Kafka接收数据,经过处理后存储至Elasticsearch,实现在Kibana上查看数据。尽管Spark官方未提供Python接口直接写入ES,但此方案成功实现了跨系统的数据流转。
最低0.47元/天 解锁文章
6082

被折叠的 条评论
为什么被折叠?



