- 博客(16)
- 收藏
- 关注
转载 spark rdd dadaSet dataframe转换
https://www.pianshen.com/article/4477311370/
2020-12-25 14:06:01
209
转载 spark sql partition
解决哪些问题SparkSQL自适应执行解决以下问题:shuffle partition个数目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200),一个作业一旦设置了该参数,它运行过程中的所有阶段的reduce个数都是同一个值。而对于不同的作业,以及同一个作业内的不同reduce阶段,实际的数据量...
2020-03-13 19:44:57
2784
2
转载 chrome崩溃 设置选项打开也崩溃 解决办法
解决方法一:点击谷歌浏览器右键属性,选择兼容性。确认兼容模式是否勾选,如已勾选,点击取消勾选。解决方法二:1.点击谷歌浏览器右键属性,选择快捷方式。在目标路径后面添加: --no-sandbox;注意: --no-sandbox前面有一个空格!2: --no-sandbox为开启沙盒模式,参考沙盒模式:https://www.simcf.cc/...
2020-02-24 16:19:57
5330
转载 spark源码查看
https://blog.youkuaiyun.com/u010180815/article/details/89084998
2019-12-03 14:45:33
554
转载 Linux windows如何传输大文件
Python自带的SImpleHTTPServer文件传输利器,只需要命令行里输入一条命令就可以将电脑搭建成临时的http服务器,另一台只需要通过浏览器就可以访问“服务器”电脑上的文件并下载,速度基本上能够达到稳定的10Mps+。python -m SimpleHTTPServer 8999...
2019-08-20 16:08:57
556
转载 spark实现自增列
https://www.cnblogs.com/itboys/p/9762808.html//dataframe新增一列方法1,利用createDataFrame方法val trdd = input.select(targetColumns).rdd.map(x=>{ if (x.get(0).toString().toDouble > critValueR || x.ge...
2019-06-19 19:33:19
2457
转载 spark卡在某个节点很长时间
https://blog.youkuaiyun.com/whgyxy/article/details/88779965https://blog.youkuaiyun.com/qq_34382453/article/details/857813771、什么是推测执行?在spark作业运行中,一个stage里面的不同task的执行时间可能不一样,有的task很快就执行完成了,而有的可能执行很长一段时间也没有完成。造...
2019-06-14 16:05:01
2452
转载 JSON转string
一、JASSONArray转为JSONObject JSONArray result_type = new JSONArray();StringBuffer cdsIdxType = new StringBuffer();cdsIdxType.append(" select id from table_type ");resul...
2019-05-21 15:20:16
5730
转载 hadoop常用参数配置
http://dongxicheng.org/framework-on-yarn/hadoop-spark-common-parameters/
2019-05-09 20:23:31
318
原创 使用spark-sql udf时产生的类型转换的问题
报错:scala.collection.mutable.WrappedArray$ofRef cannot be cast to [[Ljava.lang.String;程序:完成转化数组<数组>元素的去重合并变为数组<String>报错代码: def arrayMerge(valueLists: Array[Array[String]]): Array[S...
2019-05-05 14:14:36
963
转载 spark cache优化
https://blog.youkuaiyun.com/zhuiqiuuuu/article/details/79290221
2019-04-28 11:39:29
241
转载 drools学习笔记
Drools学习笔记Drools是一款基于Java的开源规则引擎 实现了将业务决策从应用程序中分离出来。 优点: 1、简化系统架构,优化应用 2、提高系统的可维护性和维护成本 3、方便系统的整合 4、减少编写“硬代码”业务规则的成本和风险Drools的基本工作工程 我们需要传递进去数据,用于规则的检查,调用外部接口,同时还可能获取规则执行完毕之后...
2019-04-24 14:45:33
426
转载 https://blog.youkuaiyun.com/yisun123456/article/details/81327372
HIVE 内存溢出常见问题
2019-04-17 12:29:49
867
转载 hive-求方差
https://blog.youkuaiyun.com/geyu8476771/article/details/72287591
2019-04-10 11:46:32
7357
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅