- 博客(7)
- 收藏
- 关注
原创 Hadoop1.0与Hadoop2.0的区别
1.Hadoop概述 在Google三篇大数据论文发表之后,Cloudera公司在这几篇论文的基础上,开发出了现在的Hadoop。但Hadoop开发出来也并非一帆风顺的,Hadoop1.0版本有诸多局限。在后续的不断实践之中,Hadoop2.0横空出世,而后Hadoop2.0逐渐成为大数据中的主流。那么Hadoop1.0究竟存在哪些缺陷,在它升级到Hadoop2.0的时候又做出了怎样的调整,...
2019-06-27 16:54:38
762
原创 MapReduce原理
一、MapReduce并行处理的基本过程 首先要说明的是Hadoop2.0之前和Hadoop2.0之后的区别: 2.0之前只有MapReduce的运行框架,那么它里面有只有两种节点,一个是master,一个是worker。master既做资源调度又做程序调度,worker只是用来参与计算的。 但是在2.0之后加入了YARN集群,Yarn集群的主节点承担了资源调度,Yarn集群...
2019-06-27 16:53:52
354
原创 Hadoop资源管理框架YARN
YARN框架示意图如下:1、ResourceManager 为系统中所有应用分配资源。有一个可插拔的调度器Scheduler,负责为运行中的各种应用分配资源,使用一个叫Container的抽象概念,其中包括多种资源维度,如CPU、内存、磁盘、网络。Scheduler中有三种调度器 FIFO调度器:简单粗暴,先入先出 Capacity调度器:管理员使用总槽位或者处...
2019-06-27 16:53:03
273
原创 Python编程:Numpy与Matplotlib入门
Numpy入门·CSV文件(Comma-Separated Value,逗号分隔值)*CSV是一种常见的文件格式,用来存储批量数据。*np.savetxt(frame,array,fmt=’%.18e’,delimiter=None)frame:文件、字符串或产生器,可以使.gz或.bz2的压缩文件array:存入文件的数组fmt:写入文件的格式,例如:%d %.2f...
2019-05-28 22:03:49
225
原创 Python第三方库 request
Python第三方库Requests 方法 说明 requests.request() 构造一个请求,支撑以下个方法的基础方法 requests.get() 获取HTML页面的主要方法,对应于HTTP的GET requests.head() ...
2019-05-28 22:01:32
465
原创 Ubuntu安装hive,并配置mysql作为元数据库
1、安装并配置hive1.1下载并解压hive源程序Hive1.1.1链接地址:http://mirror.bit.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-bin.tar.gz#解压到/usr/local中,sudo是指以管理员的身份运行该文件sudo tar -zxvf ./apache-hive-1.2.2-bin.t...
2019-05-28 21:57:01
1375
转载 Python 多进程 multiprocessing.Pool类详解
multiprocessing模块multiprocessing包是Python中的多进程管理包。它与 threading.Thread类似,可以利用multiprocessing.Process对象来创建一个进程。该进程可以允许放在Python程序内部编写的函数中。该Process对象与Thread对象的用法相同,拥有is_alive()、join([timeout])、run()、start(...
2018-05-19 22:05:13
393
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人