
spark
文章平均质量分 79
Islotus
这个作者很懒,什么都没留下…
展开
-
scala dataframe udf 函数总结
工作中需要对dataframe 写出非常复杂的处理函数使用udf 对单个函数进行处理,使之可以对整列数据进行处理。示例一: 对两列数据求cos(x,y)这个是实际应用的代码两个问题1.dataframe 里面的数据是vector格式的,进行处理需要处理成Array格式的2.对dataframe 进行两列处理,需要用UDF处理,udf函数的输入是两个同类型列def cosineDistence(ve...转载 2018-07-10 23:10:23 · 4764 阅读 · 0 评论 -
spark 实现列转行
1、列转行行转列和列转行是我们常用的功能,假如我们有如下的csv文件:+---+----+---------+|id |name|address |+---+----+---------+|1 |a |add1,add2||2 |b |add3 ||3 |c |add4 ||4 |d |add5 |+---+----+--------...转载 2018-07-11 01:34:29 · 5523 阅读 · 0 评论 -
DataFrame 的函数
DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(cou...转载 2018-07-11 01:54:43 · 2779 阅读 · 0 评论 -
Spark SQL 实现 group_concat
Spark SQL 实现 group_concat环境:Spark 2.0.1 以下貌似需要至少Spark 1.6支持,未实测(网友yanshichuan1反馈spark 1.5.1同样支持,感谢)表结构及内容:+-------+---+| name|age|+-------+---+|Michael| 29|| Andy| 30|| Justin| 19|| Justin| ...原创 2018-07-11 02:09:47 · 3699 阅读 · 0 评论