
Hadoop 入门学习
文章平均质量分 71
Hadoop 分布式基础框架
橙子icon
软件开发路程漫长,请多多指教!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop 编译源码<面试重点>
Hadoop 编译源码<面试重点>1. 前期准备工作1.1 CentOS 联网1.2 jar包准备(hadoop源码、JDK8、maven、ant、protobuf)2. jar 包安装2.1 JDK 解压、配置环境变量 JAVA_HOME 和 PATH,验证 java-version (如下都需要验证是否配置成功)2.2 Maven 解压、配置 MAVEN_HOME 和 PATH2.3 ant 解压、配置 ANT_HOME 和 PATH2.4 安装 glibc-headers 和 g++ 命令原创 2021-10-19 17:25:17 · 154 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 集群时间同步
Hadoop完全分布式运行模式<开发重点>: 集群时间同步1. 时间服务器配置(必须root用户)2.1 检测 `ntp` 是否安装2.2 修改 `ntp` 配置文件2.3 修改 `/etc/sysconfig/ntpd` 文件2.4 重新启动 `ntpd` 服务2.5 设置 `ntpd` 服务开机启动2. 其他机器配置(必须root用户) 1. 时间服务器配置(必须root用户) 2.1 检测 ntp 是否安装 [root@hadoop102桌面]# rpm -qa | grep ntp ntp-4.2.原创 2021-10-19 16:50:01 · 114 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 集群启动/停止方式总结
Hadoop完全分布式运行模式<开发重点>: 集群启动/停止方式总结1. 各个服务组件逐一启动/停止2. 各个模块分开启动/停止(配置ssh是前提)`常用` 1. 各个服务组件逐一启动/停止 分别启动/停止HDFS组件 hadoop-daemon.sh start/stop namenode/datanode/secondarynamenode 启动/停止YARN yarn-daemon.sh start/stop resourcemanager/nodemanager 2. 各个模块分原创 2021-10-11 16:19:18 · 96 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 群起集群
Hadoop完全分布式运行模式<开发重点>: 群起集群1. 配置 slaves2. 启动集群3. 集群基本测试 1. 配置 slaves Path: /opt/module/hadoop-2.7.2/etc/hadoop/slaves [atguigu@hadoop102hadoop]$ vi slaves 在该文件中增加如下内容: hadoop102 hadoop103 hadoop104 注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。 同步所有节点配置文件 [atguigu@hado原创 2021-10-11 16:12:46 · 165 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: SSH无密登录配置
Hadoop完全分布式运行模式<开发重点>: SSH无密登录配置1. 配置SSH2. 无秘钥配置3. `.ssh`文件夹下(~/.ssh)的文件功能解释 1. 配置SSH 基础语法 ssh [另一台电脑的IP地址] ssh 连接时出现 Host key verification failed 的解决办法 [atguigu@hadoop102opt]$ ssh 192.168.1.103 Theauthenticityofhost'192.168.1.103(192.168.1.103)'can'原创 2021-10-11 15:51:16 · 228 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 集群单点启动
Hadoop完全分布式运行模式<开发重点>: 集群单点启动1. 如果集群是第一次启动,需要格式化`NameNode`2. 在 `hadoop102` 上启动 `NameNode`3. 在 `hadoop102`、`hadoop103` 以及 `hadoop104` 上分别启动 `DataNode` 1. 如果集群是第一次启动,需要格式化NameNode [atguigu@hadoop102hadoop-2.7.2]$ hadoop namenode -format 2. 在 hadoop102 上启动 N原创 2021-10-11 15:31:24 · 202 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 集群配置
Hadoop完全分布式运行模式<开发重点>: 集群配置1. 集群部署规划2. 配置集群2.1 核心配置文件2.2 HDFS配置文件2.3 YARN配置文件2.4 MapReduce配置文件3. 在集群上分发配置好的Hadoop配置文件4. 查看文件分发情况 1. 集群部署规划 hadoop102 hadoop103 hadoop104 HDFS NameNode, DataNode DataNode SecondaryNameNode, DataNode YARN NodeManag原创 2021-10-08 17:42:26 · 133 阅读 · 0 评论 -
Hadoop完全分布式运行模式<开发重点>: 集群分发脚本
Hadoop完全分布式运行模式< 开发重点>一. 虚拟机准备二. 编写集群分发脚本 xsync1. scp (secure copy) 安全拷贝2. rsync远程同步工具3. xsync 集群分发脚本 分析: 1)准备3台客户机(关闭防火墙、静态ip、主机名称) 2)安装JDK 3)配置环境变量 4)安装Hadoop 5)配置环境变量 6)配置集群 7)单点启动 8)配置ssh 9)群起并测试集群 一. 虚拟机准备 详见 https://blog.youkuaiyun.com/weixin_440原创 2021-10-08 14:58:47 · 108 阅读 · 0 评论 -
Hadoop伪分布式运行模式: 配置文件说明
Hadoop伪分布式运行模式: 配置文件说明1. 默认配置文件2. 自定义配置文件 Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。 1. 默认配置文件 要获取的默认文件 文件存放在Hadoop的jar包中的位置 [core-default.xml] hadoop-common-2.7.2.jar/core-default.xml [hdfs-default.xml] hadoop-hdfs-2.7.原创 2021-09-29 10:47:58 · 302 阅读 · 0 评论 -
Hadoop伪分布式运行模式: 配置日志的聚集
Hadoop伪分布式运行模式: 配置日志的聚集1. 配置yarn-site.xml2. 关闭NodeManager、ResourceManager和HistoryManager3. 启动NodeManager、ResourceManager和HistoryManager4. 删除HDFS上已经存在的输出文件5. 执行WordCount程序6. 查看日志 日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。 日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。 注意:开启日志聚原创 2021-09-29 10:42:15 · 140 阅读 · 0 评论 -
Hadoop伪分布式运行模式: 配置历史服务器
Hadoop伪分布式运行模式: 配置历史服务器1. 配置 mapred-site.xml2. 启动历史服务器3. 查看历史服务器是否启动4. 查看 JobHistory 为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下: 1. 配置 mapred-site.xml <!--历史服务器端地址--> <property> <name>mapreduce.jobhistory.address</name> <value>hadoo原创 2021-09-29 10:30:31 · 116 阅读 · 0 评论 -
Hadoop伪分布式运行模式: YARN 运行 MapReduce程序
Hadoop伪分布式运行模式: YARN 运行 MapReduce程序一.启动YARN并运行MapReduce程序1. 分析2. 执行步骤2.1 配置集群2.2 启动集群2.3 集群操作 一.启动YARN并运行MapReduce程序 1. 分析 配置集群在 YARN 上运行 MapReduce 启动, 测试集群增, 删, 查 在 YARN 上执行 WordCount 案例 2. 执行步骤 2.1 配置集群 配置 yarn-env.sh配置一下 JAVA_HOME exportJAVA_HOME=/o原创 2021-09-28 10:59:08 · 435 阅读 · 0 评论 -
Hadoop伪分布式运行模式: HDFS 运行 MapReduce程序
Hadoop伪分布式运行模式: HDFS 运行 MapReduce程序一.启动 HDFS 并运行 MapReduce 程序1. 分析2. 执行步骤2.1 配置集群2.2 启动集群2.3 查看集群2.4 操作集群 一.启动 HDFS 并运行 MapReduce 程序 1. 分析 配置集群 启动, 测试集群增, 删, 查 执行 WordCount 案例 2. 执行步骤 2.1 配置集群 配置: hadoop-env.shLinux系统中获取JDK的安装路径: [atguigu@hadoop101~]# e原创 2021-09-28 10:38:55 · 469 阅读 · 0 评论 -
Hadoop本地运行模式
Hadoop本地运行模式官方Grep案例 官方Grep案例 创建在hadoop-2.7.2文件下面创建一个input文件夹[atguigu@hadoop101hadoop-2.7.2]$ mkdir input 将Hadoop的xml配置文件复制到input[atguigu@hadoop101hadoop-2.7.2]$ cp etc/hadoop/*.xml input 执行share目录下的MapReduce程序[atguigu@hadoop101hadoop-2.7.2]$ bin/hado原创 2021-09-27 16:14:16 · 119 阅读 · 0 评论 -
Hadoop环境搭建(开发重点)
Hadoop环境搭建一.虚拟机安装二.JDK安装三.Hadoop安装四.Hadoop目录结构 一.虚拟机安装 克隆虚拟机 修改克隆虚拟机的静态IP 修改主机名 关闭防火墙 创建atguigu用户 配置atguigu用户具有root权限 在/opt目录下创建文件夹 (1)在/opt目录下创建module、software文件夹 sudo mkdir module sudo mkdir software (2)修改module、software文件夹的所有者cd sudo ch原创 2021-09-27 11:22:05 · 106 阅读 · 0 评论 -
Hadoop介绍
Hadoop介绍 一. Hadoop是什么 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构 主要解决, 海量数据的储存和海量数据的分析计算问题 广义上来说, Hadoop通常是指一个广泛的概念 ----- Hadoop生态圈 二. Hadoop发展历史 Hadoop 创始人 Doug Cutting , 2年业余时间开发完成 2001年年底Lucene成为Apache基金会的一个子项目 可以说 Google 是 Hadoop 的思想之源 (Google 在上数据方面的三原创 2021-09-27 10:41:12 · 279 阅读 · 0 评论