- 博客(12)
- 收藏
- 关注
转载 spark-sql流程解析
最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相反,大数据相关技术优势在于其天生的扩展性、可用性、容错性等,但其SQL优化器经验却基本全部来自于传统...
2018-02-12 16:32:10
464
转载 storm
Apache Storm 官方文档 —— 消息的可靠性保障Storm 能够保证每一个由 Spout 发送的消息都能够得到完整地处理。本文详细解释了 Storm 如何实现这种保障机制,以及作为用户如何使用好 Storm 的可靠性机制。消息的“完整性处理”是什么意思一个从 spout 中发送出的 tuple 会产生上千个基于它创建的 tuples。例如,有这样一个 wo
2017-11-30 15:15:48
301
转载 sparkSQL架构分析
这篇博文内容虽然有点点过时,但对于初学者理解sparkSQL架构帮助还是很大的。作者思路清晰并恰当的点出了sparkSQL各阶段实现的关键类或方法,值得收藏和转载。1、sql语句的模块解析 当我们写一个查询语句时,一般包含三个部分,select部分,from数据源部分,where限制条件部分,这三部分的内容在sql中有专门的名称:当我们写sql时,如上图所示,在进行
2017-08-23 23:17:52
757
转载 Spark常用函数讲解之键值RDD转换
摘要:RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住 了数据集的逻辑操作 Ati
2017-03-12 23:58:09
481
原创 kafka启动时内存异常
一 启动时内存不足## There is insufficient memory for the Java Runtime Environment to continue.# Native memory allocation (malloc) failed to allocate 986513408 bytes for committing reserved memory.#
2017-02-15 22:55:38
9781
原创 spark资源调度流程总结
初学spark在Standalone模式下的资源调度机制,发现学习源码是理解spark一切机制的根本。现在对相关spark2.1.0源码的学习做个梳理。一应用程序提交时Master中对Driver和Executor的启动控制和资源分配机制。首先进入Master.scala中查看Master类,资源调度流程学习从receive方法的case RegisterApplicaiton(作
2017-01-10 23:32:36
1448
转载 Spark集群中HA环境搭建
1.环境介绍(1)操作系统ubuntu16.4.0(2)两个节点:spark1(192.168.232.147),spark2(192.168.232.152) (生产环境下一般配置3台)(3)两个节点上都装好了Hadoop 2.2集群2.安装Zookeeper3.4.5(1)下载Zookeeper:http://apache.fayea.com/zookeeper(2)解
2016-12-31 12:21:51
365
转载 集群环境ssh免密码登录设置
集群环境ssh免密码登录设置一、准备工作1) 用客户端工具(ssh client或者putty)连接到linux服务器。在root用户下输入命令vi /etc/hosts,用vi编辑hosts文件,如下:#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
2016-12-31 12:09:56
297
转载 深入理解Spark RDD抽象模型
深入理解Spark RDD抽象模型和编写RDD函数Spark revolves around the concept of a resilient distributed dataset (RDD), which is an immutable , fault-tolerant , partitioned collection of elements that can be opera
2016-12-28 21:06:18
5077
转载 spark master web ui 端口8080被占用解决办法
spark master web ui 默认端口为8080,当系统有其它程序也在使用该接口时,启动master时也不会报错,spark自己会改用其它端口,自动端口号加1,但为了可以控制到指定的端口,我们可以自行设置,修改方法:1、cd SPARK_HOME/sbin2、vi start-master.sh3、mster启动脚本中,该命令用来控制WEBUI的默认端口:if [ "$S
2016-12-25 22:42:47
4358
原创 hadoop进程WEB无法访问的问题
背景:PC系统从Win7升级到Win10。重新安装hadoop,配置正常,进程启动正常,老实关闭防火墙,WEB无法访问节点的任何端口。问题描述:PC系统升级,虚拟机安装ubuntu16.4.0。按部就班的安装JDK和HADOOP,配置环境变量;配置HADOOP中各个配置文件,且namenode等端口均使用默认端口;关闭防火墙,启动hdfs进程;查看hadoop进程,以及启动的监听端口,OK
2016-12-25 17:12:41
8708
1
转载 ubuntu 16.04 启用root用户方法
1、使用:sudo passwd root设置root的密码,如下图所示:2、使用su root来测试是否可以进入root用户,如果出现#说明已经设置root用户的密码成功,如下图所示:3、进入到/usr/share/lightdm/lightdm.conf.d/目录,使用gedit 50-unity-greeter.conf &命令打开50-unity-greeter.c
2016-12-22 23:14:57
718
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人