
spark
文章平均质量分 74
壹禅
这个作者很懒,什么都没留下…
展开
-
spark master web ui 端口8080被占用解决办法
spark master web ui 默认端口为8080,当系统有其它程序也在使用该接口时,启动master时也不会报错,spark自己会改用其它端口,自动端口号加1,但为了可以控制到指定的端口,我们可以自行设置,修改方法:1、cd SPARK_HOME/sbin2、vi start-master.sh3、mster启动脚本中,该命令用来控制WEBUI的默认端口:if [ "$S转载 2016-12-25 22:42:47 · 4361 阅读 · 0 评论 -
深入理解Spark RDD抽象模型
深入理解Spark RDD抽象模型和编写RDD函数Spark revolves around the concept of a resilient distributed dataset (RDD), which is an immutable , fault-tolerant , partitioned collection of elements that can be opera转载 2016-12-28 21:06:18 · 5080 阅读 · 0 评论 -
Spark集群中HA环境搭建
1.环境介绍(1)操作系统ubuntu16.4.0(2)两个节点:spark1(192.168.232.147),spark2(192.168.232.152) (生产环境下一般配置3台)(3)两个节点上都装好了Hadoop 2.2集群2.安装Zookeeper3.4.5(1)下载Zookeeper:http://apache.fayea.com/zookeeper(2)解转载 2016-12-31 12:21:51 · 368 阅读 · 0 评论 -
spark资源调度流程总结
初学spark在Standalone模式下的资源调度机制,发现学习源码是理解spark一切机制的根本。现在对相关spark2.1.0源码的学习做个梳理。一应用程序提交时Master中对Driver和Executor的启动控制和资源分配机制。首先进入Master.scala中查看Master类,资源调度流程学习从receive方法的case RegisterApplicaiton(作原创 2017-01-10 23:32:36 · 1451 阅读 · 0 评论 -
kafka启动时内存异常
一 启动时内存不足## There is insufficient memory for the Java Runtime Environment to continue.# Native memory allocation (malloc) failed to allocate 986513408 bytes for committing reserved memory.#原创 2017-02-15 22:55:38 · 9784 阅读 · 0 评论 -
Spark常用函数讲解之键值RDD转换
摘要:RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住 了数据集的逻辑操作 Ati转载 2017-03-12 23:58:09 · 483 阅读 · 0 评论 -
sparkSQL架构分析
这篇博文内容虽然有点点过时,但对于初学者理解sparkSQL架构帮助还是很大的。作者思路清晰并恰当的点出了sparkSQL各阶段实现的关键类或方法,值得收藏和转载。1、sql语句的模块解析 当我们写一个查询语句时,一般包含三个部分,select部分,from数据源部分,where限制条件部分,这三部分的内容在sql中有专门的名称:当我们写sql时,如上图所示,在进行转载 2017-08-23 23:17:52 · 760 阅读 · 0 评论 -
spark-sql流程解析
最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相反,大数据相关技术优势在于其天生的扩展性、可用性、容错性等,但其SQL优化器经验却基本全部来自于传统...转载 2018-02-12 16:32:10 · 468 阅读 · 0 评论