
Hadoop 入门学习
文章平均质量分 71
Hadoop 分布式基础框架
橙子icon
软件开发路程漫长,请多多指教!!!
展开
-
Hadoop 编译源码<面试重点>
Hadoop 编译源码<面试重点>1. 前期准备工作1.1 CentOS 联网1.2 jar包准备(hadoop源码、JDK8、maven、ant、protobuf)2. jar 包安装2.1 JDK 解压、配置环境变量 JAVA_HOME 和 PATH,验证 java-version (如下都需要验证是否配置成功)2.2 Maven 解压、配置 MAVEN_HOME 和 PATH2.3 ant 解压、配置 ANT_HOME 和 PATH2.4 安装 glibc-headers 和 g++ 命令原创 2021-10-19 17:25:17 · 127 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 集群时间同步
Hadoop完全分布式运行模式<开发重点>: 集群时间同步1. 时间服务器配置(必须root用户)2.1 检测 `ntp` 是否安装2.2 修改 `ntp` 配置文件2.3 修改 `/etc/sysconfig/ntpd` 文件2.4 重新启动 `ntpd` 服务2.5 设置 `ntpd` 服务开机启动2. 其他机器配置(必须root用户)1. 时间服务器配置(必须root用户)2.1 检测 ntp 是否安装[root@hadoop102桌面]# rpm -qa | grep ntpntp-4.2.原创 2021-10-19 16:50:01 · 108 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 集群启动/停止方式总结
Hadoop完全分布式运行模式<开发重点>: 集群启动/停止方式总结1. 各个服务组件逐一启动/停止2. 各个模块分开启动/停止(配置ssh是前提)`常用`1. 各个服务组件逐一启动/停止分别启动/停止HDFS组件hadoop-daemon.sh start/stop namenode/datanode/secondarynamenode启动/停止YARNyarn-daemon.sh start/stop resourcemanager/nodemanager2. 各个模块分原创 2021-10-11 16:19:18 · 90 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 群起集群
Hadoop完全分布式运行模式<开发重点>: 群起集群1. 配置 slaves2. 启动集群3. 集群基本测试1. 配置 slavesPath: /opt/module/hadoop-2.7.2/etc/hadoop/slaves[atguigu@hadoop102hadoop]$ vi slaves在该文件中增加如下内容:hadoop102hadoop103hadoop104注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。同步所有节点配置文件[atguigu@hado原创 2021-10-11 16:12:46 · 153 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: SSH无密登录配置
Hadoop完全分布式运行模式<开发重点>: SSH无密登录配置1. 配置SSH2. 无秘钥配置3. `.ssh`文件夹下(~/.ssh)的文件功能解释1. 配置SSH基础语法ssh [另一台电脑的IP地址]ssh 连接时出现 Host key verification failed 的解决办法[atguigu@hadoop102opt]$ ssh 192.168.1.103Theauthenticityofhost'192.168.1.103(192.168.1.103)'can'原创 2021-10-11 15:51:16 · 213 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 集群单点启动
Hadoop完全分布式运行模式<开发重点>: 集群单点启动1. 如果集群是第一次启动,需要格式化`NameNode`2. 在 `hadoop102` 上启动 `NameNode`3. 在 `hadoop102`、`hadoop103` 以及 `hadoop104` 上分别启动 `DataNode`1. 如果集群是第一次启动,需要格式化NameNode[atguigu@hadoop102hadoop-2.7.2]$ hadoop namenode -format2. 在 hadoop102 上启动 N原创 2021-10-11 15:31:24 · 194 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 集群配置
Hadoop完全分布式运行模式<开发重点>: 集群配置1. 集群部署规划2. 配置集群2.1 核心配置文件2.2 HDFS配置文件2.3 YARN配置文件2.4 MapReduce配置文件3. 在集群上分发配置好的Hadoop配置文件4. 查看文件分发情况1. 集群部署规划hadoop102hadoop103hadoop104HDFSNameNode, DataNodeDataNodeSecondaryNameNode, DataNodeYARNNodeManag原创 2021-10-08 17:42:26 · 131 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 集群分发脚本
Hadoop完全分布式运行模式< 开发重点>一. 虚拟机准备二. 编写集群分发脚本 xsync1. scp (secure copy) 安全拷贝2. rsync远程同步工具3. xsync 集群分发脚本分析:1)准备3台客户机(关闭防火墙、静态ip、主机名称)2)安装JDK3)配置环境变量4)安装Hadoop5)配置环境变量6)配置集群7)单点启动8)配置ssh9)群起并测试集群一. 虚拟机准备详见 https://blog.youkuaiyun.com/weixin_440原创 2021-10-08 14:58:47 · 99 阅读 · 0 评论 -
Hadoop伪分布式运行模式: 配置文件说明
Hadoop伪分布式运行模式: 配置文件说明1. 默认配置文件2. 自定义配置文件Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。1. 默认配置文件要获取的默认文件文件存放在Hadoop的jar包中的位置[core-default.xml]hadoop-common-2.7.2.jar/core-default.xml[hdfs-default.xml]hadoop-hdfs-2.7.原创 2021-09-29 10:47:58 · 298 阅读 · 0 评论 -
Hadoop伪分布式运行模式: 配置日志的聚集
Hadoop伪分布式运行模式: 配置日志的聚集1. 配置yarn-site.xml2. 关闭NodeManager、ResourceManager和HistoryManager3. 启动NodeManager、ResourceManager和HistoryManager4. 删除HDFS上已经存在的输出文件5. 执行WordCount程序6. 查看日志日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。注意:开启日志聚原创 2021-09-29 10:42:15 · 132 阅读 · 0 评论 -
Hadoop伪分布式运行模式: 配置历史服务器
Hadoop伪分布式运行模式: 配置历史服务器1. 配置 mapred-site.xml2. 启动历史服务器3. 查看历史服务器是否启动4. 查看 JobHistory为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:1. 配置 mapred-site.xml<!--历史服务器端地址--><property><name>mapreduce.jobhistory.address</name><value>hadoo原创 2021-09-29 10:30:31 · 111 阅读 · 0 评论 -
Hadoop伪分布式运行模式: YARN 运行 MapReduce程序
Hadoop伪分布式运行模式: YARN 运行 MapReduce程序一.启动YARN并运行MapReduce程序1. 分析2. 执行步骤2.1 配置集群2.2 启动集群2.3 集群操作一.启动YARN并运行MapReduce程序1. 分析配置集群在 YARN 上运行 MapReduce启动, 测试集群增, 删, 查在 YARN 上执行 WordCount 案例2. 执行步骤2.1 配置集群配置 yarn-env.sh配置一下 JAVA_HOMEexportJAVA_HOME=/o原创 2021-09-28 10:59:08 · 430 阅读 · 0 评论 -
Hadoop伪分布式运行模式: HDFS 运行 MapReduce程序
Hadoop伪分布式运行模式: HDFS 运行 MapReduce程序一.启动 HDFS 并运行 MapReduce 程序1. 分析2. 执行步骤2.1 配置集群2.2 启动集群2.3 查看集群2.4 操作集群一.启动 HDFS 并运行 MapReduce 程序1. 分析配置集群启动, 测试集群增, 删, 查执行 WordCount 案例2. 执行步骤2.1 配置集群配置: hadoop-env.shLinux系统中获取JDK的安装路径:[atguigu@hadoop101~]# e原创 2021-09-28 10:38:55 · 458 阅读 · 0 评论 -
Hadoop本地运行模式
Hadoop本地运行模式官方Grep案例官方Grep案例创建在hadoop-2.7.2文件下面创建一个input文件夹[atguigu@hadoop101hadoop-2.7.2]$ mkdir input将Hadoop的xml配置文件复制到input[atguigu@hadoop101hadoop-2.7.2]$ cp etc/hadoop/*.xml input执行share目录下的MapReduce程序[atguigu@hadoop101hadoop-2.7.2]$ bin/hado原创 2021-09-27 16:14:16 · 117 阅读 · 0 评论 -
Hadoop环境搭建(开发重点)
Hadoop环境搭建一.虚拟机安装二.JDK安装三.Hadoop安装四.Hadoop目录结构一.虚拟机安装克隆虚拟机修改克隆虚拟机的静态IP修改主机名关闭防火墙创建atguigu用户配置atguigu用户具有root权限在/opt目录下创建文件夹(1)在/opt目录下创建module、software文件夹 sudo mkdir module sudo mkdir software(2)修改module、software文件夹的所有者cd sudo ch原创 2021-09-27 11:22:05 · 100 阅读 · 0 评论 -
Hadoop介绍
Hadoop介绍一. Hadoop是什么Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构主要解决, 海量数据的储存和海量数据的分析计算问题广义上来说, Hadoop通常是指一个广泛的概念 ----- Hadoop生态圈二. Hadoop发展历史Hadoop 创始人 Doug Cutting , 2年业余时间开发完成2001年年底Lucene成为Apache基金会的一个子项目可以说 Google 是 Hadoop 的思想之源 (Google 在上数据方面的三原创 2021-09-27 10:41:12 · 268 阅读 · 0 评论