spark 解析 Json 字符串

 

有这样的 json 字符串

{"date":"2019-04-04","$browser_version":"11.0"}
{"date":"2019-04-04","$browser_version":"7.0.3}

这里我用python来解析

  • Python 的Pyspark

如何用 pyspark 解析这段 json 字符串

首先想到的就是 read.json函数,点进去看源码

我们可以传以下参数:

  1. string represents path to the JSON dataset(json数据集的字符串地址)
  2. a list of paths(路径列表)
  3. RDD of Strings storing JSON objects(json 字符串的RDD)

剩下的 param 目前用不到就先不说了

这里我们传的是RDD参数

不多BB,上代码:

from pyspark.sql import SparkSession, SQLContext,Row,HiveContext
from pyspark import SparkContext,SparkConf


conf = SparkConf()
conf.setAppName('TestDStream')
conf.setMaster('local')

sc = SparkContext(conf = conf)

spark = SparkSession.builder.config(conf=conf).getOrCreate()

data= """{"date":"2019-04-04","$browser_version":"11.0"}
{"date":"2019-04-04","$browser_version":"7.0.3}"""

# 将数据转为 RDD 
dataRDD = sc.parallelize(data.split("\t"))
df = spark.read.json(dataRDD)
print(df.show())

输出结果:

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值