
大数据学习
yala说
这个作者很懒,什么都没留下…
展开
-
学习 sparksql 遇到的异常问题
问题描述:启动spark和zookeeper,在客户端以spark-shell --master local[2] 方式启动1. val lineRDD= sc.textFile("/person.txt").map(_.split(" ")) 读取hdfs上的文件将RDD转换成DataFrame 执行rdd.toDF方法报错执行lineRDD.collect方法仍然报错才发现had...原创 2019-07-16 15:01:43 · 538 阅读 · 0 评论 -
sparkStream重启后获取checkpoint数据的使用问题
学习checkpoint使用是重启时总是获取不到重启之前的值,后来才发现用法不对最开始都是直接创建对象用new 的方式创建对象,代码如下def main(args: Array[String]): Unit = {val conf: SparkConf = new SparkConf().setMaster("local[4]").setAppName("SparkStreamingS...原创 2019-08-19 02:01:39 · 860 阅读 · 0 评论 -
hadoop学习hdfs笔记
1.hadoop架构模型hdfs集群 访问地址http://ip:50070/namenode:集群当中的主要节点,主要用于管理集群当中的各种数据; 管理元数据,存在内存中;管理客户端对文件读写请求,决定文件写在哪里,副本存储什么位置; 元数据信息保存在edits,FSImage secondaryNameNode:对hadoop当中的原属句信息辅助管理元数据的,定期...原创 2019-08-14 23:48:27 · 189 阅读 · 0 评论 -
spark并行度和mapreduce并行度对比
spark和mapreduce的区别mapreduce是多进程模型,即里面的一个task对应一个进程 优点:进程便于更细粒度的控制每个任务的占用资源,但是启动慢 spark是多线程模型,任务以分区为单位,一个分区对应一个task 任务以线程的方式运行,启动快 模型对比 mapreduce 主节点resourcemanager负责分配资源调度 从节点no...原创 2019-08-20 15:44:06 · 963 阅读 · 0 评论 -
MapReduce分布式计算框架学习
MapReduce 分布式计算核心思想:分而治之 map 把复杂的任务分成简单的任务,相互之间没有依赖,可以并行计算 reduce 对map阶段的结果机型汇总框架结构图MrAppMaster:负责程序的过程调度以及状态协调 maptask:负责map阶段整个数据处理流程 ReduceTask:负责reduce过程处理MapReduce的变成八个步骤1.读取文件...原创 2019-08-18 11:34:26 · 331 阅读 · 0 评论 -
spark-sql cli模式下driver内存溢出
采用spark-sql启动编程,编写sql执行,但是数据量很少,不到一百条,执行时显示内存溢出,并且是已经显示stage进度条;如果是在编译过程中提示内存溢出,极有可能是driver内存分配的太小,而sql编译后stage太多导致,但是下面的这个是程序用改已经执行了,跟executor-memory有关,和driver没有多少关系了,但是最后的解决方法是加大了driver内存。这一点目前理解不同,...原创 2019-10-10 15:22:41 · 1576 阅读 · 0 评论