有这样的 json 字符串
{"date":"2019-04-04","$browser_version":"11.0"}
{"date":"2019-04-04","$browser_version":"7.0.3}
这里我用python来解析
-
Python 的Pyspark
如何用 pyspark 解析这段 json 字符串
首先想到的就是 read.json函数,点进去看源码
我们可以传以下参数:
- string represents path to the JSON dataset(json数据集的字符串地址)
- a list of paths(路径列表)
- RDD of Strings storing JSON objects(json 字符串的RDD)
剩下的 param 目前用不到就先不说了
这里我们传的是RDD参数
不多BB,上代码:
from pyspark.sql import SparkSession, SQLContext,Row,HiveContext
from pyspark import SparkContext,SparkConf
conf = SparkConf()
conf.setAppName('TestDStream')
conf.setMaster('local')
sc = SparkContext(conf = conf)
spark = SparkSession.builder.config(conf=conf).getOrCreate()
data= """{"date":"2019-04-04","$browser_version":"11.0"}
{"date":"2019-04-04","$browser_version":"7.0.3}"""
# 将数据转为 RDD
dataRDD = sc.parallelize(data.split("\t"))
df = spark.read.json(dataRDD)
print(df.show())
输出结果: