通过StructType直接指定Schema

最新推荐文章于 2025-03-21 09:16:37 发布

原创

最新推荐文章于 2025-03-21 09:16:37 发布 · 1.1w 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#spark #mysql

Spark SQL允许将含Row对象的RDD转换为DataFrame，并自动推断数据类型。通常，通过Row类的键值对列表指定列名，但类型会从第一行数据中推断。未来版本可能考虑更多数据进行类型推断，类似于JSON处理。

Spark SQL能够将含Row对象的RDD转换成DataFrame，并推断数据类型。通过将一个键值对（key/value）列表作为kwargs传给Row类来构造Rows。key定义了表的列名，类型通过看第一列数据来推断。（所以这里RDD的第一列数据不能有缺失）未来版本中将会通过看更多数据来推断数据类型，像现在对JSON文件的处理一样。

package com.wl.spark

import java.util.Properties

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Row, SQLContext}
import org.apache.spark.sql.types.{IntegerType, StringType,