
spark
spark源码及实战
枫叶的落寞
hadoop、spark数据挖掘与机器学习算法工程师
展开
-
pyspark dataframe 读写MySQL
pyspark dataframe 读写MySQL原创 2020-06-08 11:48:53 · 836 阅读 · 0 评论 -
PySpark访问MySQL失败:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
PySpark访问MySQL失败:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver原创 2020-06-06 13:08:40 · 4505 阅读 · 8 评论 -
30天搞定spark源码系列-rdd dataset dataframe的区别
深入理解spark rdd dataframe dataset的区别和共同点原创 2020-05-28 17:53:15 · 408 阅读 · 0 评论 -
30天搞定spark源码系列-Job,stage,task区别
深入理解spark高频面试题-Job,stage,task的区别原创 2020-05-27 17:42:04 · 558 阅读 · 0 评论 -
30天搞定spark源码系列-scheduler-运行模式篇
阅读这篇文章,你应该得到面试中有可能会问到的几个问题的答案:spark的运行模式有几种?这几种运行模式分别有什么差别思路其实简单使用过spark的童鞋们都应该知道spark的运行模式就是这几种,一些人也能大致说出不同运行模式的差别,这里我们从源码的角度分析一下运行模式的不同会引起什么样的任务调度local模式1、定义spark的local模式是在本地起多个Thread,每个thread相当于一个executor,来模拟spark的并行运行模式,在实际项目中常用的有两种写法:local原创 2020-05-18 17:28:42 · 416 阅读 · 0 评论 -
30天搞定spark源码系列-RDD番外篇-shuffledRDD
spark源码番外篇-带领你深刻理解spark shuffle的原理原创 2020-05-16 16:05:52 · 1219 阅读 · 0 评论 -
30天搞定spark源码系列-RDD篇
看源码为了更好的使用,不要陷入源码中!不要陷入源码中!不要陷入源码中!原创 2020-05-15 18:23:50 · 348 阅读 · 0 评论 -
利用spark读取phoenix(phoenix-spark)
为何不是jdbc访问phoenix?具体原因参照phoenix官网地址:(https://phoenix.apache.org/phoenix_spark.html)为何不是官网提倡的访问方式?官网提倡:import org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache....原创 2019-04-19 13:08:56 · 6896 阅读 · 4 评论 -
Spark常用错误记录
1、org.apache.spark.shuffle.FetchFailedException: Failed to connect当出现这个错误的时候,绝大部分原因是spark连接executor超时了,解决方案:在spark-submit脚本中增加:--conf spark.core.connection.ack.wait.timeout=600s...原创 2018-12-24 17:59:25 · 460 阅读 · 0 评论 -
hbase HexStringSplit预分区,spark通过bulkload入数据
hbase建表语句create 'test',{NAME=>'CF_1',COMPRESSION=>'SNAPPY'},{NUMREGIONS => 30, SPLITALGO => 'HexStringSplit'}bulk load 数据到上面建的表1、自定义spark的partitioner函数,使得rdd的分区和hbase hfile要求的region分区...原创 2018-12-27 17:11:12 · 3562 阅读 · 0 评论