加载csv文件
df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")
Schema
输出Schema
df.printSchema()
使用Schema读取csv文件,以指定数据类型
from pyspark.sql.types import StructField, StructType, StringType, LongType
mySchema = StructType(
[
StructField("DEST_COUNTRY_NAME", StringType(), True),
StructField("ORIGIN_COUNTRY_NAME", StringType(), True),
StructField("count", LongType(), False)
]
)
df = spark.read.format("json").schema(mySchema).load("/Users/yangyong/dev/learn_spark/2015-summary.json")
行
获取第一行
df.first()
创建行
from pyspark.sql import Row
myRow = Row("Hello", None, 1, False)
创建DataFrames
加载csv文件为DataFrames
df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")
合并Schema和Rows为DataFrames
Schema1 = StructType(
[
StructField("id", StringType(), True),
StructField("name", StringType(), True),
StructField("country", StringType(), True

最低0.47元/天 解锁文章
1978

被折叠的 条评论
为什么被折叠?



