toDF:
// 构造测试数据,有两个字段、名字和年龄
val userData = Array(("A", 16), ("B", 21), ("B", 14), ("B", 18))
//创建测试df
val userDF = spark.createDataFrame(userData)
+-----+---+
| ._1| ._2|
+-----+---+
| A | 16|
| B | 21|
| C | 14|
| D | 18|
+-----+---+
.toDF("name", "age")
+-----+---+
| name|age|
+-----+---+
| A | 16|
| B | 21|
| C | 14|
| D | 18|
+-----+---+
是否使用toDF("","",...)的区别。对于schema完整且有意义的df来说,df.toDF不带参数,有和没有toDF没有区别。
快捷UDF:
udf函数:
一种快捷的实现自己想要效果的方法,新手可以试试一些简单的函数,大神请随意
val orgUDF = udf((str:String) -> str.subString(0,11))
count变体
df.count
一般来说,count是统计dataframe内部数据条数的函数,例如:
userDF.count
返回4 数值类型是Long
那么按理说这时候df.count就是一个数字了,那么像filter等函数不就是不能做了嘛,你这样说也没错,我之前也是这么认为的,在spark-shell中也没能通过。
但今天看到了一段代码颠覆了我的认知
在idea开发环境中,df.groupby().count.filter是可行的,
咨询大神后,他说可能是这种模型的变体
df.groupby().agg(sum()).filter,没有验证过,所以且当真吧