自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 spark rdd dadaSet dataframe转换

https://www.pianshen.com/article/4477311370/

2020-12-25 14:06:01 209

转载 spark sql partition

解决哪些问题SparkSQL自适应执行解决以下问题:shuffle partition个数目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200),一个作业一旦设置了该参数,它运行过程中的所有阶段的reduce个数都是同一个值。而对于不同的作业,以及同一个作业内的不同reduce阶段,实际的数据量...

2020-03-13 19:44:57 2784 2

转载 chrome崩溃 设置选项打开也崩溃 解决办法

解决方法一:点击谷歌浏览器右键属性,选择兼容性。确认兼容模式是否勾选,如已勾选,点击取消勾选。解决方法二:1.点击谷歌浏览器右键属性,选择快捷方式。在目标路径后面添加: --no-sandbox;注意: --no-sandbox前面有一个空格!2: --no-sandbox为开启沙盒模式,参考沙盒模式:https://www.simcf.cc/...

2020-02-24 16:19:57 5330

转载 spark源码查看

https://blog.youkuaiyun.com/u010180815/article/details/89084998

2019-12-03 14:45:33 554

转载 Linux windows如何传输大文件

Python自带的SImpleHTTPServer文件传输利器,只需要命令行里输入一条命令就可以将电脑搭建成临时的http服务器,另一台只需要通过浏览器就可以访问“服务器”电脑上的文件并下载,速度基本上能够达到稳定的10Mps+。python -m SimpleHTTPServer 8999...

2019-08-20 16:08:57 556

转载 spark实现自增列

https://www.cnblogs.com/itboys/p/9762808.html//dataframe新增一列方法1,利用createDataFrame方法val trdd = input.select(targetColumns).rdd.map(x=>{ if (x.get(0).toString().toDouble > critValueR || x.ge...

2019-06-19 19:33:19 2457

转载 spark卡在某个节点很长时间

https://blog.youkuaiyun.com/whgyxy/article/details/88779965https://blog.youkuaiyun.com/qq_34382453/article/details/857813771、什么是推测执行?在spark作业运行中,一个stage里面的不同task的执行时间可能不一样,有的task很快就执行完成了,而有的可能执行很长一段时间也没有完成。造...

2019-06-14 16:05:01 2452

转载 for line in sys.stdin:python 如何停止

Ctrl+d

2019-05-23 19:48:10 3357

转载 JSON转string

一、JASSONArray转为JSONObject JSONArray result_type = new JSONArray();StringBuffer cdsIdxType = new StringBuffer();cdsIdxType.append(" select id from table_type ");resul...

2019-05-21 15:20:16 5730

转载 hadoop常用参数配置

http://dongxicheng.org/framework-on-yarn/hadoop-spark-common-parameters/

2019-05-09 20:23:31 318

原创 使用spark-sql udf时产生的类型转换的问题

报错:scala.collection.mutable.WrappedArray$ofRef cannot be cast to [[Ljava.lang.String;程序:完成转化数组<数组>元素的去重合并变为数组<String>报错代码: def arrayMerge(valueLists: Array[Array[String]]): Array[S...

2019-05-05 14:14:36 963

转载 spark sql UDF

https://www.jianshu.com/p/bded081b5350

2019-04-29 10:59:17 167

转载 spark cache优化

https://blog.youkuaiyun.com/zhuiqiuuuu/article/details/79290221

2019-04-28 11:39:29 241

转载 drools学习笔记

Drools学习笔记Drools是一款基于Java的开源规则引擎  实现了将业务决策从应用程序中分离出来。  优点:    1、简化系统架构,优化应用    2、提高系统的可维护性和维护成本    3、方便系统的整合    4、减少编写“硬代码”业务规则的成本和风险Drools的基本工作工程  我们需要传递进去数据,用于规则的检查,调用外部接口,同时还可能获取规则执行完毕之后...

2019-04-24 14:45:33 426

转载 https://blog.youkuaiyun.com/yisun123456/article/details/81327372

HIVE 内存溢出常见问题

2019-04-17 12:29:49 867

转载 hive-求方差

https://blog.youkuaiyun.com/geyu8476771/article/details/72287591

2019-04-10 11:46:32 7357

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除