
sparksql
jim8973
这个作者很懒,什么都没留下…
展开
-
SparkSQL中的UDF、UDAF、UDTF实现
分类根据输入输出之间的关系来分类:UDF —— 输入一行,输出一行UDAF —— 输入多行,输出一行UDTF —— 输入一行,输出多行UDF函数1、数据大狗 三国,水浒,红楼二狗 金瓶梅二条 西游,唐诗宋词2、需求:求出每个人的爱好个数3、实现def main(args: Array[String]): Unit = { val spark = SparkSession.builder .master("local") .appName(t原创 2020-11-08 17:15:55 · 296 阅读 · 0 评论 -
DataFrame的read和write&SparkSQL&存储格式的转换
DataFrame在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得Spark SQL得以洞察更多的结构信息,从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化...原创 2020-04-19 15:03:47 · 4690 阅读 · 0 评论 -
RDD转换DataFrame&SparkSql操作数据源&跨数据源join&SparkSql与DF和DS的比较&spark元数据:catalog
RDD转换DataFrame方式1:使用反射来推断包含特定对象类型的RDD的模式 def inferReflection(spark: SparkSession) ={ val rdd = spark.sparkContext.textFile("D:\\ssc\\spark\\people.txt") //RDD => DF时需要的隐式转换 import spa...原创 2020-04-23 08:10:16 · 594 阅读 · 0 评论