spark
怀念韦德
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark rdd dadaSet dataframe转换
https://www.pianshen.com/article/4477311370/转载 2020-12-25 14:06:01 · 209 阅读 · 0 评论 -
spark sql partition
解决哪些问题SparkSQL自适应执行解决以下问题:shuffle partition个数目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200),一个作业一旦设置了该参数,它运行过程中的所有阶段的reduce个数都是同一个值。而对于不同的作业,以及同一个作业内的不同reduce阶段,实际的数据量...转载 2020-03-13 19:44:57 · 2784 阅读 · 2 评论 -
spark cache优化
https://blog.youkuaiyun.com/zhuiqiuuuu/article/details/79290221转载 2019-04-28 11:39:29 · 241 阅读 · 0 评论 -
spark sql UDF
https://www.jianshu.com/p/bded081b5350转载 2019-04-29 10:59:17 · 167 阅读 · 0 评论 -
使用spark-sql udf时产生的类型转换的问题
报错:scala.collection.mutable.WrappedArray$ofRef cannot be cast to [[Ljava.lang.String;程序:完成转化数组<数组>元素的去重合并变为数组<String>报错代码: def arrayMerge(valueLists: Array[Array[String]]): Array[S...原创 2019-05-05 14:14:36 · 965 阅读 · 0 评论 -
spark卡在某个节点很长时间
https://blog.youkuaiyun.com/whgyxy/article/details/88779965https://blog.youkuaiyun.com/qq_34382453/article/details/857813771、什么是推测执行?在spark作业运行中,一个stage里面的不同task的执行时间可能不一样,有的task很快就执行完成了,而有的可能执行很长一段时间也没有完成。造...转载 2019-06-14 16:05:01 · 2454 阅读 · 0 评论 -
spark实现自增列
https://www.cnblogs.com/itboys/p/9762808.html//dataframe新增一列方法1,利用createDataFrame方法val trdd = input.select(targetColumns).rdd.map(x=>{ if (x.get(0).toString().toDouble > critValueR || x.ge...转载 2019-06-19 19:33:19 · 2457 阅读 · 0 评论
分享