spark
文章平均质量分 59
姥爷家的小胡同
专注于数据分析
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark调优-shuffle调优
基于spark1.6 参数可以通过 new sparkContext().set("","")来设置,也可以通过命令的参数设置 --conf spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会...原创 2017-03-16 09:58:27 · 754 阅读 · 0 评论 -
spark调优-持久化策略选择
RDD的持久化策略: cache、persist、checkpoint三种策略(持久化的单位是partition) 1、cache是persist的一个简化版,会将rdd中的数据持久化到内存中 cache = persists(StorageLevel.MEMORY_ONLY) 不进行序列化 特点: 1、cache的返回值 必须赋值给一个新的RDD变量原创 2017-03-16 10:01:58 · 1583 阅读 · 0 评论 -
Spark-SQL之DataFrame操作大全
一DataFrame对象的生成二DataFrame对象上Action操作 show展示数据collect获取所有数据到数组collectAsList获取所有数据到Listdescribecols String获取指定字段的统计信息first head take takeAsList获取若干行记录 二DataFrame对象上的条件查询和join等操作 where转载 2017-09-15 15:00:28 · 1208 阅读 · 0 评论 -
Python Spark Streaming任务监控
spark Streaming 监控脚本转载 2017-11-24 15:17:08 · 1399 阅读 · 0 评论
分享