南-唐-优快云博客

原创 Python3+Anaconde+pycharm环境搭建和使用

一、下载python3.6.2 1、下载地址：https://www.python.org/downloads/windows/ 2、下载版本：Python 3.6.2 - 2017-07-17 Windows x86-64 executable installer **注意：安装时记得添加环境变量** 二、安装anaconda科学计算库< 1、下载python3.6...

2018-12-06 14:43:53 1709

原创 Hadoop MapReduce执行过程中map和reduce执行过程

Map和Reduce执行过程 MapReduce是分布式运行，由两个阶段构成：map和reduce，MapReduce框架都是默认实现，用户只需map()和 reduce()两个函数，即可实现分布式计算。这两个函数形参和返回值是(key,value) 1.Map执行过程: 案例： str = "abceabd" 计算这个字符串中每一个字

2017-08-29 19:37:20 752

原创宽依赖与窄依赖区别

宽依赖与窄依赖区别窄依赖(narrow dependencies) 子RDD的每个分区依赖于常数个父分区（与数据规模无关）输入输出一对一的算子，且结果RDD的分区结构不变。主要是map/flatmap 输入输出一对一的算子，但结果RDD的分区结构发生了变化，如union/coalesce 从输入中选择部分元素的算子，如filter、distinct、sub

2017-08-28 17:25:26 1785

原创 HDFS通信协议

HDFS通信协议 HDFS通信协议抽象了HDFS各个节点之间的调用接口。 1. Hadoop RPC接口：hadoop RPC调用是的HDFS进程能够像本地调用一样调用另一个进程中的方法(远程过程调用协议)。 1.1 ClientProtocol:定义了客户端端Namenode节点之间的接口，客户端对文件系统的所有操作都要通过这个接口。 1

2017-08-28 17:10:45 1902

原创 spark名词解释

ClusterManager：在Standalone模式中即为Master（主节点），控制整个集群，监控Worker。在YARN模式中为资源管理器。 Worker：从节点，负责控制计算节点，启动Executor。在YARN模式中为NodeManager，负责计算节点的控制。 Driver：运行Application的main()函数并创建SparkCon

2017-08-28 15:12:37 558

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Python3+Anaconde+pycharm环境搭建和使用

原创 Hadoop MapReduce执行过程中map和reduce执行过程

原创 宽依赖与窄依赖区别

原创 HDFS通信协议

原创 spark名词解释

空空如也

空空如也

原创宽依赖与窄依赖区别