Spark教程5-基本结构化操作

原创

于 2024-10-25 07:57:58 发布 · 581 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#spark

加载csv文件

df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")

Schema

输出Schema

df.printSchema()

使用Schema读取csv文件，以指定数据类型

from pyspark.sql.types import StructField, StructType, StringType, LongType

mySchema = StructType(
    [
        StructField("DEST_COUNTRY_NAME", StringType(), True),
        StructField("ORIGIN_COUNTRY_NAME", StringType(), True),
        StructField("count", LongType(), False)
    ]
)
df = spark.read.format("json").schema(mySchema).load("/Users/yangyong/dev/learn_spark/2015-summary.json")

行

获取第一行

df.first()

创建行

from pyspark.sql import Row

myRow = Row("Hello", None, 1, False)

创建DataFrames

加载csv文件为DataFrames

df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")

合并Schema和Rows为DataFrames

Schema1 = StructType(
    [
        StructField("id", StringType(), True),
        StructField("name", StringType(), True),
        StructField("country", StringType(), True