统计踩坑日记(二)

toDF:

// 构造测试数据,有两个字段、名字和年龄
val userData = Array(("A", 16), ("B", 21), ("B", 14), ("B", 18))
//创建测试df
val userDF = spark.createDataFrame(userData)
+-----+---+
|  ._1| ._2|
+-----+---+
|  A  | 16|
|  B  | 21|
|  C  | 14|
|  D  | 18|
+-----+---+

.toDF("name", "age")
+-----+---+
| name|age|
+-----+---+
|  A  | 16|
|  B  | 21|
|  C  | 14|
|  D  | 18|
+-----+---+
是否使用toDF("","",...)的区别。对于schema完整且有意义的df来说,df.toDF不带参数,有和没有toDF没有区别。

快捷UDF:

udf函数:
一种快捷的实现自己想要效果的方法,新手可以试试一些简单的函数,大神请随意
val orgUDF = udf((str:String) -> str.subString(0,11))

count变体

df.count
一般来说,count是统计dataframe内部数据条数的函数,例如:
userDF.count
返回4 数值类型是Long
那么按理说这时候df.count就是一个数字了,那么像filter等函数不就是不能做了嘛,你这样说也没错,我之前也是这么认为的,在spark-shell中也没能通过。
但今天看到了一段代码颠覆了我的认知
在idea开发环境中,df.groupby().count.filter是可行的,
咨询大神后,他说可能是这种模型的变体
df.groupby().agg(sum()).filter,没有验证过,所以且当真吧
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值