
spark
文章平均质量分 61
tuntunwang
理解透彻,信手拈来。
展开
-
spark之coalesce和repartition
如果需要将分区数量减少,需要调用coalesce方法。比如,上层数据很大,你只选取部分数据进行处理,并且要落地。如果不进行充分区,那么接下来有人使用这个数据的时候,分区数量很大,读取的很慢。如果需要将分区数量增加,需要调用repartition方法。加入需要了数据倾斜,或者并行度不够,就需要将数据的分区数量增加。从原理上将,repartition方法就是调用coalesce,但是将s...原创 2019-12-11 14:45:22 · 513 阅读 · 0 评论 -
spark性能优化
参数优化https://blog.youkuaiyun.com/xwc35047/article/details/71038581原创 2019-11-07 19:38:59 · 382 阅读 · 0 评论 -
zeppelin下写python程序
zeppelin写python代码原创 2016-05-21 20:36:14 · 4944 阅读 · 1 评论 -
如何将dataframe转换为rdd类型
将dataframe类型的数据存储到本地原创 2016-05-21 20:38:59 · 9061 阅读 · 2 评论 -
spark mllib的优缺点分析
spark机器学习的有点和缺点原创 2016-06-25 19:56:00 · 4980 阅读 · 0 评论 -
spark学习笔记
零基础学习spark原创 2016-09-03 14:50:36 · 476 阅读 · 0 评论 -
基于spark用线性回归(linear regression)进行数据预测
ubuntu+spark+scala实现线性回归(linear regression)算法(代码+数据)原创 2017-03-08 13:05:48 · 15038 阅读 · 6 评论 -
spark下rdd和dataframe以及sqlcontext之间相互转换
spark下rdd和dataframe以及sqlcontext之间相互转换原创 2017-03-04 20:19:53 · 4117 阅读 · 1 评论 -
spark实现下的逻辑回归(logistic regression)
ubuntu+spark+scala实现逻辑回归分类原创 2017-03-09 11:10:58 · 7017 阅读 · 0 评论 -
单机部署spark
单机部署spark(不需要虚拟机)原创 2016-04-03 10:31:02 · 898 阅读 · 0 评论 -
如何生成PairRDD
通过代码演示如何生成PairRDD原创 2016-05-09 21:45:05 · 1524 阅读 · 0 评论 -
将rdd存储到本地的一个文件中
spark中,将文件存储为单个文件原创 2016-05-10 13:42:19 · 12004 阅读 · 3 评论 -
导入第三方依赖到shell
导入第三方依赖到spark-shell原创 2016-05-05 09:32:20 · 3404 阅读 · 0 评论 -
复制多行代码到shell
粘贴多行代码到IDEA原创 2016-04-03 21:37:11 · 2455 阅读 · 0 评论 -
无法新建scala文件
虽然添加scala插件,但是无法新建scala文件。这里用最简单的方法解决原创 2016-04-03 21:41:24 · 1290 阅读 · 0 评论 -
scala参数是个函数
scala的参数是一个函数,使用方法介绍原创 2016-04-04 09:01:53 · 949 阅读 · 0 评论 -
pairRDD的join操作
pairRDD的join和filter操作原创 2016-05-10 09:50:50 · 2136 阅读 · 0 评论 -
获取预测概率值
随机森林预测,并且获得预测可能性大小原创 2016-05-25 21:40:20 · 2866 阅读 · 0 评论 -
zeppelin导入第三方依赖
zeppelin导入第三方依赖原创 2016-05-13 09:58:42 · 4032 阅读 · 1 评论 -
IDEA导出jar包
IDEA导出jar包原创 2016-05-05 09:15:09 · 897 阅读 · 0 评论 -
IDEA可以正常运行,但是spark-shell不行
IDEA下可以支持跑,但是shell下就不行了原创 2016-05-05 09:22:07 · 1069 阅读 · 0 评论 -
取出大文件里面的一部分数据
获取一个超大文件的一部分原创 2016-05-05 09:29:58 · 2599 阅读 · 0 评论 -
scala小众,搜索方法不方便
scala作为一种小众的语言,遇到问题不好搜索。这里可以完美解决原创 2016-04-03 21:28:50 · 509 阅读 · 0 评论