统计踩坑日记（二）-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_43341418/article/details/108230491

toDF：

// 构造测试数据，有两个字段、名字和年龄
val userData = Array(("A", 16), ("B", 21), ("B", 14), ("B", 18))
//创建测试df
val userDF = spark.createDataFrame(userData)
+-----+---+
|  ._1| ._2|
+-----+---+
|  A  | 16|
|  B  | 21|
|  C  | 14|
|  D  | 18|
+-----+---+

.toDF("name", "age")
+-----+---+
| name|age|
+-----+---+
|  A  | 16|
|  B  | 21|
|  C  | 14|
|  D  | 18|
+-----+---+
是否使用toDF("","",...)的区别。对于schema完整且有意义的df来说，df.toDF不带参数，有和没有toDF没有区别。

快捷UDF：

udf函数：
一种快捷的实现自己想要效果的方法，新手可以试试一些简单的函数，大神请随意
val orgUDF = udf((str:String) -> str.subString(0,11))

count变体

df.count
一般来说，count是统计dataframe内部数据条数的函数，例如：
userDF.count
返回4 数值类型是Long
那么按理说这时候df.count就是一个数字了，那么像filter等函数不就是不能做了嘛，你这样说也没错，我之前也是这么认为的，在spark-shell中也没能通过。
但今天看到了一段代码颠覆了我的认知
在idea开发环境中，df.groupby().count.filter是可行的，
咨询大神后，他说可能是这种模型的变体
df.groupby().agg(sum()).filter,没有验证过，所以且当真吧