
spark
文章平均质量分 56
IT_NEU_Lee
大数据开发 深度学习 机器学习 数据挖掘 Java开发 Python程序设计 软件测试开发
展开
-
Spark为什么要在Hadoop基础之上搭建
今天突然想到这个问题 但网上都是些复制粘贴的内容 不能很好地解答 经过查找资料 我在这里给出我的说明 仅供参考: 尽管Spark相对于Hadoop而言具有较大优势(速度快),但Spark并不能完全替代Hadoop,主要用于替代Hadoop中的MapReduce计算模型。(spark中也有MapReduce 但还有更多的用于处理的算子 相对来说处理更加多样化 更重...原创 2018-05-23 23:38:28 · 3384 阅读 · 0 评论 -
spark运行模式 standlone mesos yarn
不同的运行模式的主要区别就是他们有自己特定的资源分配和任务调度模块,这些模块用来执行实际的计算任务。常用spark-submit提交spark application 格式如下submit可选参数如下: standalone模式:资源调度是spark框架自己实现,节点分为master和worker节点如果是运行spark-shell等交互式的运行spark任务,那...原创 2018-12-03 23:36:43 · 520 阅读 · 0 评论 -
spark 配置historyserver进程 报错:failed to launch org.apache.spark.deploy.history.HistoryServer
查看日志 发现是Exception in thread "main" java.lang.reflect.InvocationTargetException 然后后面还有fail on connection 这个大概是接口防火墙错误了 我检查之后 端口没有被占用 ,防火墙也关闭了 那怎么回事呢?后来才发现,因为我配置historyserver的存储目录是hdfs:/...原创 2019-04-15 16:22:25 · 2104 阅读 · 1 评论 -
spark 提交集群的各种方式
https://blog.youkuaiyun.com/hellozhxy/article/details/80483376其中 deploy-mode 可以是cluster 和client形式 两者有什么区别呢:请看https://blog.youkuaiyun.com/Trigl/article/details/72732241...转载 2019-05-30 15:23:09 · 289 阅读 · 0 评论 -
启动hadoop成功后,再次启动datanode 和namenode都没有 但有nodeManager
安装hadoop 启动后发现成功 但之后因为某些原因重新启动 发现重新启动不起来了datanode和namenode都没有了 怎么找也找不到 但可以看到nodeManager还在 这是个什么幺蛾子我重新删除log tmp文件夹 然后format 啊哈 没有一点用最后发现后台进程中JVM占用了50010端口 这我就知道了 因为之前没有合理的关闭ha...原创 2019-07-24 10:58:11 · 1210 阅读 · 0 评论 -
Spark的Job Stage task关系
https://blog.youkuaiyun.com/hjw199089/article/details/77938688原创 2020-04-26 20:02:42 · 234 阅读 · 0 评论 -
linux 的grep操作以及Linux自带wc命令
使用spark进行wordcount后可以通过Linux自带的wc命令进行验证比如 spark命令是求出某个文档中spark的数量 使用wc验证 grep spark README.md | wc 求出README.md中spark的数量 下面介绍一下用到的grep 和 wc命令grep (global search regular expression(RE) an...原创 2018-12-01 09:46:04 · 510 阅读 · 0 评论 -
spark的RDD
spark的RDD是一个分布式对象集合,每个RDD可以分为多个片(partitions)。分片可以在集群环境的不同节点上计算。创建RDD的两种方式:加载外部数据集或者在驱动程序中部署对象集合。1通过加载一个文本文件作为RDD2 现有的内存集合把他传递给SparkContext的并行化方法。在shell中快速创建RDD 我们知道,RDD有两种操作 转换和动作,RDDs在...原创 2018-11-28 10:17:55 · 196 阅读 · 0 评论 -
spark基础理论学习
SparkContext负责与ClusterManager通信,进行资源的申请 任务的分配和监控 Worker:集群中任何可以运行appliction代码的节点,类似于yarn中的nodemanager。共享变量:在spark application 运行时,可能需要共享一些变量,提供给task或者driver使用。1可以缓存到各个节点的广播变量 2 只支持加法操作的可以实现求和的累加...原创 2018-11-28 09:38:07 · 214 阅读 · 0 评论 -
spark学习
spark上下文对象,是spark程序的主入口点,负责连接到spark cluster。 一旦有了上下文,就可以创建RDD,子集群上创建累加器和广播变量每个jvm只能激活一个sparkcontext,创建新的时候必须停止前一个sparkcontext需要传入sparkconf ,用来设置spark参数,参数是kv对RDD:是不可变的,可分区的元素集合,可进行并行操作。该类包含了用于所有R...原创 2018-06-24 20:59:40 · 478 阅读 · 0 评论 -
spark学习与理解
One stack to rule them all!先来看一下:MapReduce的流程图:首先从hdfs上取来数据,map任务加载进来解析成kv形式,通过inputformat格式进行解析,然后在环形缓冲区进行缓存排序,然后把排好序的文件分发到磁盘上面,通过partitions进行分片,然后把一片片已经内部排好序的分片传到下一个reduce上去,然后merge合成同一个大文件,然后reduce...原创 2018-06-26 21:32:21 · 459 阅读 · 0 评论 -
学习spark与IDEA必看
https://blog.youkuaiyun.com/u012373815/article/details/53266301转载 2018-06-27 15:52:31 · 265 阅读 · 0 评论 -
Linux查看内存大小与内存插槽数
查看内存插槽数:sudo dmidecode|grep -P -A5 "Memory\s+Device"|grep Size|grep -v Range 查看最大容量:sudo dmidecode | grep -P 'Maximum\s+Capacity'原创 2018-06-27 15:54:14 · 2115 阅读 · 0 评论 -
spark补充
每个应用在一个WorkerNode上只会有一个Executor。每个partition都会由一个task负责运行,有多少partition就有多少task。DAGScheduler给TaskScheduler发送任务时候以stage为单位提交的TaskSet 其实就是task组成的一个数组...原创 2018-12-04 10:50:12 · 223 阅读 · 0 评论 -
spark子框架汇总
SQL 实时数据流处理 机器学习 图计算 4大子框架1图计算GraphX,下面是一栈式解决GraphX和GraphLab的对比 相比之下 虽然GraphX没有GraphLab快 但一栈式解决让整体更好图存储模式:巨型图的存储有边分割(每个顶点都存储一次,但边可能被分到不同的机器,如果基于边的计算,那么跨机器通信变大)和点分割(边只存储一次) 2实时流处理框架spark ...原创 2018-11-30 11:10:21 · 714 阅读 · 0 评论 -
简单 解析spark RDD
弹性分布式数据集 RDD(只读,可分区) 这个数据集的部分或者全部可以缓存在内存中。所谓弹性,是指内存不够时可以与磁盘进行交换。RDD 作为数据结构,本质上是一个只读的分区记录集合。一个rdd可以包含多个分区,每个分区就是一个数据集片段。 宽依赖和窄依赖的区别:narrow dependecies 可以支持同一个cluster node 还是哪个以pipeline形式执行多条命...原创 2018-12-02 21:18:07 · 364 阅读 · 1 评论