- 博客(5)
- 问答 (1)
- 收藏
- 关注
转载 spark job提交过程
Driver的任务提交过程 1、Driver程序的代码运行到action操作,触发了SparkContext的runJob方法。 2、SparkContext调用DAGScheduler的runJob函数。 3、DAGScheduler把Job划分stage,然后把stage转化为相应的Tasks,把Tasks交给TaskScheduler。 4、通过TaskScheduler把Tasks添
2016-11-09 17:28:35
5874
转载 hadoop HA机制
NameNode 的主备切换实现 NameNode 主备切换主要由 ZKFailoverController、HealthMonitor 和 ActiveStandbyElector 这 3 个组件来协同实现: ZKFailoverController 作为 NameNode 机器上一个独立的进程启动 (在 hdfs 启动脚本之中的进程名为 zkfc),启动的时候会创建 HealthMon
2016-11-09 10:55:55
4578
2
转载 hadoop读取文件流程分析
在读取HDFS上的文件时,Client、NameNode以及DataNode都会相互关联。按照一定的顺序来实现读取这一过程,读取过程如下图所示: 通过上图,读取HDFS上的文件的流程可以清晰的知道,Client通过实例打开文件,找到HDFS集群的具体信息(我们需要操作的是 ClusterA,还是ClusterB,需要让Client端知道),这里会创建一个输入流,这个输入流是连接DataNode的桥
2016-11-08 16:13:10
1519
转载 hadoop写文件流程分析
1.主要概念1.1 NameNode(NN): HDFS系统核心组件,负责分布式文件系统的名字空间管理、INode表的文件映射管理。如果不开启备份/故障恢复/Federation模式,一般的HDFS系统就只有1个NameNode,当然这样是存在单点故障隐患的。NN管理两个核心的表:文件到块序列的映射、块到机器序列的映射。 第一个表存储在磁盘中,第二表在NN每次启动后重建。1.2 NameNode
2016-11-08 14:53:24
1749
翻译 hive中快速对表结构数据进行复制
1. CREATE TABLE new_table LIKE old_table;2. 使用hadoop fs -cp 命令,把old_table对应的HDFS目录的文件夹全部拷贝到new_table对应的HDFS目录下;3. 使用MSCK REPAIR TABLE new_table;修复新表的分区元数据;
2016-05-13 11:56:54
6519
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人