- 博客(5)
- 收藏
- 关注

原创 Python3+Anaconde+pycharm环境搭建和使用
一、下载python3.6.21、下载地址:https://www.python.org/downloads/windows/2、下载版本:Python 3.6.2 - 2017-07-17 Windows x86-64 executable installer**注意:安装时记得添加环境变量**二、安装anaconda科学计算库<1、下载python3.6...
2018-12-06 14:43:53
1654
原创 Hadoop MapReduce执行过程中map和reduce执行过程
Map和Reduce执行过程 MapReduce是分布式运行,由两个阶段构成:map和reduce,MapReduce框架都是默认实现,用户只需map()和 reduce()两个函数,即可实现分布式计算。这两个函数形参和返回值是(key,value)1.Map执行过程: 案例: str = "abceabd" 计算这个字符串中每一个字
2017-08-29 19:37:20
715
原创 宽依赖与窄依赖区别
宽依赖与窄依赖区别窄依赖(narrow dependencies) 子RDD的每个分区依赖于常数个父分区(与数据规模无关) 输入输出一对一的算子,且结果RDD的分区结构不变。主要是map/flatmap 输入输出一对一的算子,但结果RDD的分区结构发生了变化,如union/coalesce 从输入中选择部分元素的算子,如filter、distinct、sub
2017-08-28 17:25:26
1731
原创 HDFS通信协议
HDFS通信协议HDFS通信协议抽象了HDFS各个节点之间的调用接口。 1. Hadoop RPC接口:hadoop RPC调用是的HDFS进程能够像本地调用一样调用另一个进程中的方法(远程过程调用协议)。 1.1 ClientProtocol:定义了客户端端Namenode节点之间的接口,客户端对文件系统的所有操作都要通过这个接口。 1
2017-08-28 17:10:45
1810
原创 spark名词解释
ClusterManager:在Standalone模式中即为Master(主节点),控制整个集群,监控Worker。 在YARN模式中为资源管理器。 Worker:从节点,负责控制计算节点,启动Executor。在YARN模式中为NodeManager,负责计算节点的控制。 Driver:运行Application的main()函数并创建SparkCon
2017-08-28 15:12:37
520
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人