大数据
baibaichenchen
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark 内存溢出解决方法
1.map过程产生大量对象导致内存溢出这种溢出的原因是单个map中产生了大量的对象导致的例如:rdd.map(x=>for(i<-1 to 10000) yield i.tostring)这个操作在rdd中,每个对象产生了10000个对象,肯定很容易产生内存溢出,针对这种问题,在不增加内存下,通过减少每个task的大小,以便达到每个task 即使产生大量的对象execu...原创 2020-09-06 18:59:49 · 1386 阅读 · 0 评论 -
spark基础概念篇
1.SparkContext:通常而言,Driver Application的执行与输出都是通过SparkContext来完成的,在正式提交Application之前,首先需要初始化SparkContext。SparkContext隐藏了网络通信、分布式部署、消息通信、存储能力、计算能力、缓存、测量系统、文件服务、Web服务等内容,应用程序开发者只需要使用SparkContext提供的API完成功能开发。SparkContext内置的DAGScheduler负责创建Job,将DAG中的RDD划分到不同的St原创 2020-09-06 18:58:51 · 190 阅读 · 0 评论
分享