Spark SQL能够将含Row对象的RDD转换成DataFrame,并推断数据类型。通过将一个键值对(key/value)列表作为kwargs传给Row类来构造Rows。key定义了表的列名,类型通过看第一列数据来推断。(所以这里RDD的第一列数据不能有缺失)未来版本中将会通过看更多数据来推断数据类型,像现在对JSON文件的处理一样。
package com.wl.spark
import java.util.Properties
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Row, SQLContext}
import org.apache.spark.sql.types.{IntegerType, StringType,

Spark SQL允许将含Row对象的RDD转换为DataFrame,并自动推断数据类型。通常,通过Row类的键值对列表指定列名,但类型会从第一行数据中推断。未来版本可能考虑更多数据进行类型推断,类似于JSON处理。
最低0.47元/天 解锁文章
825

被折叠的 条评论
为什么被折叠?



