
Hadoop基础教程
文章平均质量分 52
程裕强
开源是人类最大的公益事业!--程裕强
展开
-
搭建Kafka集群( 2.8.0版本)之二
1、创建Topic(1)创建topic[root@node3 kafka-2.8.0]# bin/kafka-topics.sh --create --zookeeper node1:2181 --replication-factor 1 --partitions 1 --topic testCreated topic test.[root@node3 kafka-2.8.0]#–zookeeper:为zk服务器地址,已逗号分割配置多个–replication-factor:分区leader原创 2021-09-05 20:50:19 · 594 阅读 · 1 评论 -
Kafka集群(2.8.0版本)快速入门
参考官方文档,一步步执行https://kafka.apache.org/documentation/#quickstart(1)下载最新版Kafka[root@node1 app]# tar -zxvf kafka_2.13-2.8.0.tgz[root@node1 app]# mv kafka_2.13-2.8.0 kafka-2.8.0[root@node1 app]# cd kafka-2.8.0/(2)启动Kafka环境先启动内置的Zookeeper[root@node1 kaf原创 2021-09-04 22:58:43 · 538 阅读 · 0 评论 -
搭建Kafka集群( 2.8.0版本)之一
1、启动zookeeper集群Kafka最新版本2.8.0可以不依赖zookeeper,但是仍然测试阶段,所以官方不推荐使用,因此还是要使用zookeeper集群。[root@node1 ~]# zkServer.sh startZooKeeper JMX enabled by defaultUsing config: /opt/zookeeper-3.4.10/bin/../conf/zoo.cfgStarting zookeeper ... STARTED[root@node1 ~]#[原创 2021-09-03 21:49:08 · 1457 阅读 · 0 评论 -
Kafka详细教程:下载、安装、配置与集群部署
[root@node1 ~]# wget http://mirror.bit.edu.cn/apache/kafka/0.11.0.1/kafka_2.11-0.11.0.1.tgz--2017-10-28 09:16:07-- http://mirror.bit.edu.cn/apache/kafka/0.11.0.1/kafka_2.11-0.11.0.1.tgzResolving mir原创 2017-10-28 21:52:56 · 870 阅读 · 0 评论 -
查看zookeeper事务日志
1、日志文件(1)Zookeeper的日志文件位置,在配置文件zoo.cfg的dataDir指定。我的配置如下dataDir=/tpdata/zookeeper(2)日志文件zookeeper的日志为二进制格式文件,不能直接查看[root@node2 version-2]# pwd/tpdata/zookeeper/version-2[root@node2 version-2]# ll总用量 252-rw-r--r-- 1 root root 2 8月 22 00:29原创 2021-09-03 14:42:24 · 2994 阅读 · 0 评论 -
Hadoop基础教程-第3章 HDFS:分布式文件系统(3.5 HDFS基本命令)(草稿)
第3章 HDFS:分布式文件系统3.5 HDFS基本命令HDFS命令官方文档: http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html3.5.1 用法[root@node1 ~]# hdfs dfsUsage: hadoop fs [generic options] [-原创 2017-05-14 21:42:19 · 1609 阅读 · 0 评论 -
Hadoop基础教程-第5章 YARN:资源调度平台(5.1 YARN介绍)(草稿)
第5章 YARN:资源调度平台5.1 YARN介绍YARN的全称是Yet Another Resource Negotiator,意为另一种资源调度者。 从Apache Hadoop 2.0开始, Hadoop包含 YARNYARN的基本思想是将资源管理和作业调度/监控的功能分为独立的守护进程。这个想法是拥有一个全局ResourceManager(RM)和每个应用程序ApplicationMas原创 2017-05-21 22:08:27 · 2701 阅读 · 0 评论 -
Hadoop基础教程-第3章 HDFS:分布式文件系统(3.3 HDFS参数解读)
第3章 HDFS:分布式文件系统3.3 HDFS参数解读3.3.1 官方文档Hadoop官方文档地址: http://hadoop.apache.org/docs/r2.7.3/由于Hadoop相关参数页面需要通过FireFox浏览器打开,这里需要你先安装FireFox浏览器。下拉页面,可以在页面左下角找到“Configuration”,其下面有core-site.xml、hdfs-site.xm原创 2017-05-14 17:19:34 · 1782 阅读 · 0 评论 -
Hadoop基础教程-第5章 YARN:资源调度平台(5.4 YARN集群运行)(草稿)
第5章 YARN:资源调度平台5.4 YARN集群运行HDFS已经启动[root@node1 ~]# jps2247 NameNode2584 Jps2348 DataNode[root@node2 ~]# jps2279 Jps2137 DataNode2201 SecondaryNameNode[root@node3 ~]# jps5179 DataNode7295 Jps5.4原创 2017-05-23 20:57:57 · 1445 阅读 · 0 评论 -
Hadoop基础教程-第2章 Hadoop快速入门(2.1 Hadoop简介)
第2章 Hadoop快速入门2.1 Hadoop简介2.1.1 Hadoop编年史(1)2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。(2)2003 年 Google 发表了一篇技术学术论文关于 Google 文件系统(GFS)。GFS 也就是 Google File System,是 Google 公司为了存储海量搜索数据而设计的专用文件原创 2017-05-11 21:19:12 · 5388 阅读 · 0 评论 -
Hadoop基础教程-第5章 YARN:资源调度平台(5.3 YARN集群配置)(草稿)
第5章 YARN:资源调度平台5.3 YARN集群配置5.3.1 yarn-site.xml<?xml version="1.0" ?><configuration> <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1536</value> </property> <property原创 2017-05-23 18:46:31 · 1584 阅读 · 0 评论 -
Hadoop基础教程-第5章 YARN:资源调度平台(5.2 YARN参数解读与调优)
第5章 YARN:资源调度平台5.2 YARN参数解读与调优yarn-site.xml文件默认参数: http://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-common/yarn-default.xml5.2.1 ResourceManager相关配置参数 参数 默认值 说明 yarn.resourcemanager原创 2017-05-23 15:39:40 · 1582 阅读 · 0 评论 -
Hadoop基础教程-第5章 YARN:资源调度平台(5.5 YARN的调度器)(草稿)
第5章 YARN:资源调度平台5.5 YARN的调度器打个比方,Hadoop相当于一台虚拟计算机(由多台计算机构造的集群),那么HDFS就是这台虚拟计算机的文件系统,管理磁盘资源;而YARN负责管理虚拟计算机的CPU和内存资源。在YARN上跑的MapReduce程序(比如5.4节跑的PI和wordcount两个应用程序)就是在这台虚拟计算机跑的应用程序,需要磁盘、内存和CPU等资源。...原创 2017-05-23 23:10:38 · 1345 阅读 · 0 评论 -
Hadoop基础教程-第1章 环境安装配置(1.3 XShell安装与配置)
第1章 环境安装配置1.3 XShell安装与配置1、下载XShell单击“普通下载”,即可下载。2、安装XShell1)双击下载的Xshell_5.0.0.37_setup.1459931786.exe2)选择“免费为家庭/学校”3)接受协议,单击“下一步”按钮4)默认安装目录即可,单击“下一步”按钮5)默认选项,单击“下一步”按钮6 )语言选择简体中文“Chinese (Simplified)原创 2017-05-07 20:16:22 · 3710 阅读 · 0 评论 -
Hadoop基础教程-第5章 YARN:资源调度平台(5.6 YARN的命令)(草稿)
[root@node1 ~]# yarnUsage: yarn [--config confdir] [COMMAND | CLASSNAME] CLASSNAME run the class named CLASSNAME or where COMMAND is one of: resourcemanager -format-原创 2017-05-26 20:59:50 · 3077 阅读 · 1 评论 -
Hadoop基础教程-第3章 HDFS:分布式文件系统(3.2 HDFS文件读写)
第3章 HDFS:分布式文件系统3.2 HDFS文件读写3.2.1 文件访问权限针对文件和目录,HDFS有与POSIX非常相似的权限模式。 一共提供三类权限模式:只读权限(r)、写入权限(w)和可执行权限(x)。读取文件或列出目录内容时需要只读权限。写入一个文件,或是在一个目录上创建及删除文件或目录,需要写入权限。对于文件而言,可执行权限可以忽略,因为你不能在HDFS中执行文件(与POSI原创 2017-05-14 16:45:58 · 2777 阅读 · 2 评论 -
Hadoop基础教程-第4章 HDFS的Java API(4.1 Maven入门)
第4章 HDFS的Java API4.1 Maven入门参考文章:https://my.oschina.net/huangyong/blog/1945834.1.1 Maven简介Apache Maven是一个软件项目管理和综合工具,通过它便捷的管理项目的生命周期。即项目的jar包依赖,开发,测试,发布打包。4.1.2 Maven下载http://maven...原创 2017-05-14 21:51:45 · 5755 阅读 · 0 评论 -
Hadoop基础教程-第4章 HDFS的Java API(4.2 Eclipse+Maven)
第4章 HDFS的Java API4.2 Eclipse+Maven4.2.1 Eclipse的Maven配置目前的eclipse-javee版本已经自带maven插件了 winows–>preferences–>左边maven 在Maven下选择“Installations”,右边窗口中单击“Add”按钮 单击“Directory”按钮,选择Maven安装目录,单击“Finish”按钮原创 2017-05-15 21:59:11 · 2109 阅读 · 3 评论 -
Hadoop基础教程-第4章 HDFS的Java API(4.3 pom.xml解析)
第4章 HDFS的Java API4.3 pom.xml解析4.3.1 Maven库https://mvnrepository.com/4.3.2 添加Hadoop的依赖在pom.xml文件里添加hadoop的依赖包hadoop-common, hadoop-client, hadoop-hdfs 在搜索框中输入hadoop-common,单击“Search”按钮 单击“Apache Had原创 2017-05-16 22:54:05 · 4823 阅读 · 0 评论 -
Hadoop基础教程-第1章 环境安装配置(1.5 构建集群)
第1章 环境安装配置1.5 构建集群1、集群概念根据百度的解释: 集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。服务器集群是一种提升服务器整体计算能力的解决方案。它是由互相连接在一起的服务器群所组成的一个并行式或分布式系统。服务器集群中的服务器运行同一个计算任务。原创 2017-05-08 21:44:14 · 2248 阅读 · 0 评论 -
Hadoop基础教程-第1章 环境安装配置(1.7 目录规划)
第1章 环境安装配置1.7 目录规划1、总体规划软件安装目录:/opt数据目录:/var/data日志目录:/var/log2、hadoop相关目录:按照上面规划,hadoop相关目录如下:软件安装目录:/opt/hadoop2.7数据目录:/var/data/hadoop/var/data/hadoop/name/var/data/hadoop/datanode/var/data/hadoo原创 2017-05-09 23:17:35 · 2267 阅读 · 0 评论 -
Hadoop基础教程-第4章 HDFS的Java API(4.5 Java API介绍)
第4章 HDFS的Java API4.5 Java API介绍4.5.1 Java API 官网Hadoop 2.7.3 Java API官方地址 http://hadoop.apache.org/docs/r2.7.3/api/index.html 如上图所示,Java API页面分为了三部分,左上角是包(Packages)窗口,左下角是所有类(All Classes是)窗口,右侧是详情窗口。原创 2017-05-18 22:50:34 · 1594 阅读 · 0 评论 -
Hadoop基础教程-第4章 HDFS的Java API(4.4 Windows+Eclipse+HDFS快速入门)
第4章 HDFS的Java API4.4 Java 读取HDFS文件前面4.1到4.3节的准备工作,本节正式进入HDFS的Java API 部分4.4.1 数据准备通过HDFS 命令方式将本地words.txt文件上传到HDFS上[root@node1 ~]# hdfs dfs -put /root/words.txt input[root@node1 ~]# hdfs dfs -ls /user原创 2017-05-17 22:44:25 · 2120 阅读 · 6 评论 -
Hadoop基础教程-第4章 HDFS的Java API(4.6 Java API应用)(草稿)
第4章 HDFS的Java API4.6 Java API应用4.6.1 上传文件先在本地(客户端)一个文件,比如在D盘下新建一个word2.txt文件,内容随便写testnode nodeHadoop Hadoop在Eclipse中编写Java程序package cn.hadron.hdfsDemo;import java.net.URI;import org.apache.hadoop.原创 2017-05-20 09:39:16 · 1882 阅读 · 0 评论 -
Hadoop基础教程-第4章 HDFS的Java API(4.7 Java API封装类)(草稿)
第4章 HDFS的Java API4.7 Java API封装类package cn.hadron.hdfsDemo;import java.io.IOException;import java.io.InputStream;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf原创 2017-05-21 21:25:15 · 1880 阅读 · 1 评论 -
Hadoop基础教程-第6章 MapReduce入门(6.3 加速WordCount)(草稿)
第6章 MapReduce6.3 加速WordCount6.3.1 问题分析MapReduce的性能很大程度受限于网络宽带,当map输出中间结果很大时,然后通过网络将中间结果传递给reduce方法,这时MapReduce的性能较差。通过对WordCount程序分析,大家可能已经发现其中存在一个很“笨”的问题:map方法输出值是<word,1>形式,如果map方法处理的文本很大,则输出的<word原创 2017-05-29 16:59:23 · 1869 阅读 · 0 评论 -
Hadoop基础教程-第6章 MapReduce入门(6.1 MapReduce介绍)(草稿)
第6章 MapReduce6.1 MapReduce介绍本节将介绍Hadoop的分布式计算框架:MapReduce。6.1.1 MapReduce来历MapReduce最早来源于谷歌公司的一篇学术论文,是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法,当时主要是为了解决其搜索引擎中大规模网页数据的并行化处理。但由于MapReduce可以普遍应用于很多大规模数据的计算问题,因此原创 2017-05-27 20:43:47 · 2564 阅读 · 0 评论 -
Hadoop基础教程-第6章 MapReduce入门(6.5 温度统计)(草稿)
第6章 MapReduce6.5 MapReduce应用6.5.1 温度统计《HADOOP权威指南 第3版 》教程中有个经典例子,既是温度统计。作者Tom White在书中写了程序和讲解了原理,认为读者们都会MapReduce程序的基本环境搭建部署,所以这里轻描淡写给带过了,对于初学者来说,这是一个“天坑”,程序跑步起来,也就消磨了Hadoop初学者的兴趣和意志。这里根据《HADOOP权威指南 第3原创 2017-06-02 08:43:47 · 4711 阅读 · 2 评论 -
Hadoop基础教程-第1章 环境安装配置(1.1 安装VMware)
1.1 安装VMware1、 下载VMware2、 安装VMware1) 双击刚才下载的VMware-workstation-full_12.5.5.17738.exe文件,将弹出VMware安装向导界面 2) 勾选“我接受许可协议中的条款” 3)自定义安装,可以选择VMware软件安装位置,此处选择默认安装目录即可,单击“下一步” 4)取消默认勾选项 ...原创 2017-05-07 16:14:48 · 2937 阅读 · 0 评论 -
Hadoop基础教程-第6章 MapReduce入门(6.2 解读WordCount)(草稿)
第6章 MapReduce入门6.2 解读WordCountWordCount程序就是MapReduce的HelloWord程序。通过对WordCount程序分析,我们可以了解MapReduce程序的基本结构和执行过程。6.2.1 WordCount设计思路WordCount程序很好的体现了MapReduce编程思想。 一般来说,本文作为MapReduce的输入,MapReduce会将文本进行切分原创 2017-05-28 17:50:08 · 3017 阅读 · 0 评论 -
Hadoop基础教程-第7章 MapReduce进阶(7.1 MapReduce过程)(草稿)
第7章 MapReduce进阶7.1 MapReduce过程7.1.1 input一般而言,数据文件都会上传到HDFS上,也就是说HDFS上的文件作为MapReduce的输入。已知block块大小是128M(Hadoop 2.x默认的blockSize是128MB,Hadoop 1.x默认的blockSize是64MB)。MapReduce计算框架首先会用InputFormat的子类FileInpu原创 2017-06-02 09:00:49 · 2169 阅读 · 0 评论 -
Hadoop基础教程-第8章 Zookeeper(8.1 Zookeeper介绍)(草稿)
第8章 Zookeeper8.1 Zookeeper介绍8.1.1 单点故障问题单点故障(single point of failure),从英文字面上可以看到是单个点发生的故障,通常应用于计算机系统及网络。实际指的是单个点发生故障的时候会波及到整个系统或者网络,从而导致整个系统或者网络的瘫痪。这也是在设计IT基础设施时应避免的。解决单点问题基本上有3个方向: (1)使用公共缓存,所有服务节点都将原创 2017-06-27 17:45:30 · 1049 阅读 · 0 评论 -
Hadoop基础教程-第8章 Zookeeper(8.2 Zookeeper下载与安装)(草稿)
第8章 Zookeeper8.2 Zookeeper安装与配置8.2.1 Zookeeper下载Zookeeper官网:http://zookeeper.apache.org 在首页“Getting Started”区域找到”download”链接 在新页面中再次单击”download”链接,将跳转到下载页面http://www.apache.org/dyn/closer.cgi/zook原创 2017-06-27 18:06:15 · 977 阅读 · 0 评论 -
Hadoop基础教程-第8章 Zookeeper(8.3 Zookeeper单机模式)(草稿)
第8章 Zookeeper8.3 Zookeeper单机模式8.3.1 三种运行模式Zookeeper 有三种运行模式:单机模式、伪集群模式和集群模式。8.3.2 单机模式配置单机模式仅仅用于开发测试环境。一方面我们没有那么多机器资源,另外就是平时的开发调试并不需要极好的稳定性。 zookeeper单机模式配置参照官方文档 http://zookeeper.apache.org/doc/r3.原创 2017-07-06 21:45:43 · 944 阅读 · 0 评论 -
Hadoop基础教程-第8章 Zookeeper(8.5 Zookeeper内存数据库)(草稿)
第8章 Zookeeper8.5 Zookeeper内存数据库8.5.2 内存数据库介绍ZooKeeper的数据模型是一棵树,而从使用角度看, Zookeeper就像一个内存数据库一样。在这个内存数据库中,存储了整棵树的内容,包括所有的节点路径、节点数据及其ACL信息等,Zookeeper会定时将这个数据存储到磁盘上。 Zookeeper内存数据库是通过ZKDatabase类实现, 内部属性包括原创 2017-07-08 15:57:48 · 1096 阅读 · 0 评论 -
Hadoop基础教程-第9章 HA高可用(9.2 HDFS 高可用配置)(草稿)
第9章 HA高可用9.2 HDFS 高可用配置9.2.1 准备工作因为前面我们已经配置启动了普通的Hadoop相关服务,需要先停止相关服务并清除数据。 (1)停止Hadoop服务 首先停止YARN[root@node1 ~]# stop-yarn.shstopping yarn daemonsstopping resourcemanagernode2: s...原创 2017-07-08 21:03:30 · 1316 阅读 · 1 评论 -
Hadoop基础教程-第9章 HA高可用(9.4 YARN 高可用)(草稿)
第9章 HA高可用9.4 YARN 高可用9.4.1 RM单点故障http://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html ResourceManager(RM)负责跟踪群集中的资源,并调度应用程序(例如MapReduce作业)。在Hadoop 2.4之...原创 2017-07-22 22:12:45 · 2336 阅读 · 0 评论 -
Hadoop基础教程-第9章 HA高可用(9.3 HDFS 高可用运行)(草稿)
第9章 HA高可用9.3 HDFS 高可用运行9.3.1 HA节点规划 节点 IP Zookeeper NameNode JournalNode DataNode node1 192.168.80.131 Y Y Y Y node2 192.168.80.132 Y Y Y Y node3 192.168.80.133原创 2017-07-12 22:21:00 · 1737 阅读 · 2 评论 -
Hadoop基础教程-第10章 HBase:Hadoop数据库(10.1 NoSQL介绍)(草稿)
第10章 HBase:Hadoop数据库10.1 NoSQL介绍10.1.1 NoSQL简介随着互联网技术(互联网+,物联网)发展,特别是大数据时代到来,我们需要存储处理更多数据,这种需求远远超出传统关系型数据库的存储和处理能力。 为了应对这种情形,我们需要不停的扩展。扩展分为两类:一种是纵向扩展,即购买更好的机器,更多的磁盘、更多的内存等等;另一种是横向扩展,即购买更多的机器组成集群。在巨大的规原创 2017-07-22 22:43:36 · 1667 阅读 · 0 评论 -
Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.6 HQL:DML数据操纵)(草稿)
第11章 Hive:SQL on Hadoop11.6 HQL:DML数据操纵11.6.1 装载数据原创 2017-08-12 22:40:10 · 951 阅读 · 0 评论