
spark
汴水流
这个作者很懒,什么都没留下…
展开
-
spark2.1.0版本 SparkSQL相关内容的测试和学习
参考文档:http://spark.apache.org/docs/latest/sql-programming-guide.html 在本地测试。(可自行编译源码spark2.1对应hadoop2.7.2版本的源码,源码包里可以找到对应的代码) Find full example code at “examples/src/main/scala/org/apache/spark/exampl原创 2017-04-06 22:07:15 · 759 阅读 · 1 评论 -
SparkMLlib逻辑斯蒂回归分类器简单案例
逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型。 logistic分布 设X是连续随机变量,X服从logistic分布是指X具有下列分布函数和密度函数:...原创 2017-04-06 22:27:08 · 1270 阅读 · 0 评论 -
spark性能优化(一)
性能优化概述: (随着自己学习,持续更新,让博客见证我的成长之路吧) spark计算本质基于内存,真正使用过的人,肯定遇到各种各样的性能问题,各种OOM;spark性能瓶颈很多:cpu、网络带宽、或者是内存等 数据量太大,内存放不下所有数据,需要对内存进行优化,比如使用些手段减少内存的消耗;内存容量足够放所有数据,网络传输和通信就会导致性能出现瓶颈…… 经常遇到oom、文件丢失、task原创 2017-03-25 20:15:40 · 327 阅读 · 0 评论