
hadoop
文件存储
诗水人间
要想走的更远,就需要思考更深层次的问题。冷静、智慧、深沉是我所向往的
展开
-
hadoop-3.2.1完全分布式配置 和 群起集群,50070改成了9870端口
前置操作 jdk和hadoop环境变量要配置好三台服务器的名称分别是hadoop112、hadoop113、hadoop114修改了/etc/hosts文件将三个名称绑定了服务器例如hadoop112 192.168.1.112hadoop113 192.168.1.113hadoop114 192.168.1.114注意hado...原创 2019-10-23 00:23:18 · 143411 阅读 · 0 评论 -
HDFS的常用Shell操作
(0)启动Hadoop集群sbin/start-dfs.shsbin/start-yarn.sh(1)-help:输出这个命令参数hadoop fs -help rm(2)-ls: 显示目录信息hadoop fs -ls /(3)-mkdir:在HDFS上创建目录hadoop fs -mkdir -p /sanguo/shuguo(4)-moveFrom...原创 2019-10-22 17:18:50 · 135991 阅读 · 0 评论 -
Hadoop组成(面试经常考到)hadoop1.x和2.x版本的区别 以及生态
在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。增加yarn的主要目的是解耦!将计算和资源调度区分开NameNode、DataNode、Secondary NameNode:NameNode(nn):存储文件的...原创 2019-09-25 01:41:31 · 130147 阅读 · 0 评论 -
集群间的数据的拷贝
采用distcp命令实现两个Hadoop集群之间的递归数据复制hadoop distcp hdfs://haoop112:9000/hello.txt hdfs://hadoop113:9000/hello.txthadoop distcp 源文件 目的地原创 2019-10-26 04:29:00 · 125507 阅读 · 0 评论 -
hadoop添加白名单 以及 黑名单
白名单用在刚搭建集群的时候使用,黑名单是正常的退役服务器注意:不允许白名单和黑名单中同时出现同一个主机名称。白名单(1)在NameNode的/opt/module/hadoop-3.2.1/etc/hadoop目录下创建dfs.hosts文件vim dfs.hosts 内容不允许有其他字符包括空格hadoop112hadoop113hadoop114...原创 2019-10-26 03:50:24 · 144490 阅读 · 0 评论 -
给hadoop-3.2.1集群挂载新的服务器
准备一台新的服务器然后利用scp命令或者rsync命令同步配置记得环境变量要source /etc/profile一下我这里直接选择克隆hadoop114(只包含NodeManager和DataNode)修改ip为192.168.1.115vim /etc/sysconfig/network-scripts/ifcfg-ens33主机名称改成hadoop115...原创 2019-10-26 03:30:27 · 123098 阅读 · 0 评论 -
NameNode多目录配置、DataNode多目录配置
NameNode多目录:hdfs-site.xml<property> <name>dfs.namenode.name.dir</name> <value>file:///${hadoop.tmp.dir}/dfs/name1,file:///${hadoop.tmp.dir}/dfs/name2</value>...原创 2019-10-26 01:56:50 · 145882 阅读 · 0 评论 -
hadoop的安全模式,以及常用的安全模式命令
一、 什么是安全模式?首先你需要了解NameNode的工作机制,请先查看这篇博客便于理解https://blog.youkuaiyun.com/qq_41813208/article/details/102722283 安全模式在NameNode的作用: NameNode启动时,首先将镜像文件(Fsimage)载入内存并执行编辑日志(Edits)中的各项操作。一旦在内存中成功...原创 2019-10-25 21:07:15 · 116966 阅读 · 0 评论 -
NameNode故障处理
NameNode故障后,可以采用如下两种方法恢复数据。方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录;1. kill-9 NameNode进程2.删除NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name)[angel@hadoop112 hadoop-2.7.2]$ rm -r...原创 2019-10-25 04:28:25 · 142317 阅读 · 0 评论 -
CheckPoint时间设置
(1)通常情况下,SecondaryNameNode每隔一小时执行一次。[hdfs-default.xml]<property><name>dfs.namenode.checkpoint.period</name><value>3600</value></property>(2)一分钟检查一...原创 2019-10-25 04:24:38 · 148662 阅读 · 0 评论 -
hadoop副本存储的选择
假设有很多hadoop服务器,现在有三个副本需要存储原创 2019-10-25 03:00:44 · 143849 阅读 · 0 评论 -
hadoop的NameNode和SecondaryNameNode、DataNode的工作机制
思考:NameNode中的元数据是存储在哪里的?假设元数据存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。===》这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效...原创 2019-10-24 14:16:34 · 124850 阅读 · 0 评论 -
hadoop集群读、写数据的流程
1)客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。3)DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。4)客户端以Packet为单位接收,先在本地缓...原创 2019-10-24 02:40:34 · 127381 阅读 · 0 评论 -
hadoop客户端,IO流方式 上传、下载文件、定位读取 ---------》示例代码
IO流方式上传文件:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.a...原创 2019-10-24 01:51:52 · 135666 阅读 · 4 评论 -
hadoop客户端,文件重命名 、判断是文件还是文件夹 ---------》示例代码
重命名:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.junit.Test;import java.io.IOException;import java.net.URI;...原创 2019-10-24 01:18:26 · 118833 阅读 · 0 评论 -
hadoop集群配置中的优先级循序
第一、代码中的优先级第二、 maven项目的resource文件夹下的.xml配置文件第三、服务器修改的配置第四、默认的配置代码修改配置示例import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.P...原创 2019-10-24 00:18:40 · 144834 阅读 · 0 评论 -
hadoop客户端,上传文件、下载文件、删除文件 、查看文件详情 -------》 示例代码
关于环境先看https://blog.youkuaiyun.com/qq_41813208/article/details/102711752这篇博客然后执行下面的代码 ,注意自己修改代码,比如URI、 “angel”用户,以及上传文件的文件来源,由于我使用的是linux操作系统所以是/开头。 windows是盘符加路径上传文件示例:import org.apache.hadoop.conf....原创 2019-10-24 00:29:43 · 131471 阅读 · 0 评论 -
hadoop客户端 环境操作IDEA maven项目对集群操作 创建目录--------》示例代码
maven环境搭建http://maven.apache.org/download.cgi下载对应的maven解压缩后,修改conf文件夹下的settings.xml文件添加阿里云镜像源在<mirrors>中添加<mirror> <id>alimaven</id> <name>aliyun mav...原创 2019-10-23 22:00:31 · 123376 阅读 · 0 评论 -
配置hadoop副本数为3但是发现只有一个文件?并且报错 java.io.IOException: Got error, status message , ack with firstBadLink
出现这种问题的原因是其他服务器的防火墙没有关闭,需要关闭防火墙才才能将文件同样传给另外的服务器。输入sudo systemctl stop firewalld.service 即可关闭防火墙,就可以访问到下面的页面永久关闭sudo systemctl disable firewalld.service然后重新上传文件试试可以使用 -put或moveFromLocalh...原创 2019-10-23 21:04:47 · 135968 阅读 · 0 评论 -
解决启动完全分布式namenode没有启动起来,其他都启动起来了的问题
是否你遇到如下情况?只有namenode没有启动起来,导致整个集群不可用?原因是进行了第二次格式化namenode;不止一次执行了hdfs namenode -format。导致唯一识别标识集群id变化了。所以启动不起来namenode解决方法: 删除对应文件,重新格式化namenodeNameNode、SecondaryNameNode、的临时文件删干净,然后重新格式化名称结点即可文件路径在core-site.xml配置中能找到如果没有配置则在默认路径下找,其中...原创 2019-10-23 01:13:29 · 135047 阅读 · 1 评论 -
hadoop源码编译
前提条件首先确保Centos能够连接到外网:全新的系统在默认不改配置条件下就可以联网,如果修改则按照下面的方法修改https://blog.youkuaiyun.com/qq_41813208/article/details/101027226首先需要下载几个软件包官网分别是:https://ant.apache.org/bindownload.cgihttp://mav...原创 2019-10-19 14:27:40 · 127245 阅读 · 0 评论 -
hadoop-2.7版本的完全分布式模式配置 和 群起集群
前提:需要3台配置好jdk和hadoop环境变量的虚拟机可以配置好一台服务器然后用xsync脚本进行同步,具体见另外一篇博客https://blog.youkuaiyun.com/qq_41813208/article/details/102575933其中三台服务器的名称分别是hadoop112、hadoop113、hadoop114修改了hosts文件将三个名称绑定了服务器例如...原创 2019-10-16 22:50:36 · 123561 阅读 · 0 评论 -
集群服务器的同步xsync命令使用
使用情形现在有4台服务器hadoop111~114,其中一台hadoop111是配置好jdk和hadoop环境的,现在我想让这些软件同步到其他服务器上,这样就不用一台一台去解压缩配置环境变量等操作。其中/etc/profile文件需要有root权限,则su root,用root用户执行脚本文件即可!得到的效果是其他服务器和hadoop111一样有对应的文件,路径也和hadoop1...原创 2019-10-15 22:08:32 · 135626 阅读 · 4 评论 -
搭建hadoop集群------准备工作
第一步、设置静态ipCentos:https://blog.youkuaiyun.com/qq_41813208/article/details/101027226Ubuntu:https://blog.youkuaiyun.com/qq_41813208/article/details/100718624第二步、修改主机名Centos:vim /etc/sysconfig/network如截图,...原创 2019-10-15 04:37:10 · 151029 阅读 · 0 评论 -
hadoop开发中常用的端口号有那些?
50070 查看hdfs文件系统的8088 查看MapReduce原创 2019-09-14 16:20:22 · 106806 阅读 · 0 评论 -
运行hadoop2.7的:本地模式、伪分布式模式以及 完全分布式 模式 对应的几个案例讲解
关于vim 使用sudo apt-get install vim 安装vi 经常出问题,不习惯,建议使用vim一、本地模式 ===》官方案例 Grep案例讲解 在hadoop-2.7.7文件下面创建一个input文件夹 mkdir /opt/software/hadoop-2.7.7/input 复制hadoop的配置文件到input内 cp /opt...原创 2019-09-11 01:05:55 · 123980 阅读 · 0 评论 -
NameNode不能一直格式化的原因
当执行hdfs namenode -format 对data文件夹格式化。那么该文件夹下的文件将会重新生成 集群id集群id在下面这个路径下的VERSION 文件能找到cat /opt/software/hadoop-2.7.7/data/tmp/dfs/data/current/VERSIONcat /opt/software/hadoop-2.7.7/data/tmp/...原创 2019-09-12 00:11:51 · 156135 阅读 · 0 评论 -
ubuntu19.04系统搭建hadoop2.7环境
为了方便先给root用户设置密码首先ctrl+alt+t 打开命令行,接下来为root用户设置密码sudo passwd root123456 (密码是不会显示出来的)首先安装配置JDK环境链接:Ubuntu19.04安装配置JDK8博客链接Hadoop配置 -----配置环境变量的时候注意文件夹路径和名称找到hadoop2.7的tar.gz包解...原创 2019-09-10 17:46:28 · 123397 阅读 · 0 评论 -
hadoop完全分布式- - - - - -scp 、rsync 和 xsync 命令工具讲解
1. scp(secure copy)安全拷贝(1)scp定义: scp可以实现服务器与服务器之间的数据拷贝。(fromserver1toserver2)(2)基本语法 scp-r $pdir/$fname $user@hadoop$host:$pdir/$fname 命...原创 2019-09-17 22:02:56 · 110929 阅读 · 0 评论 -
hadoop的安装配置
链接: https://pan.baidu.com/s/1BvS0aZDkPnOmbi8n_qii8Q 提取码: x2wa下载上面百度网盘分享的hadoop安装包hadoop环境依赖jdk所以需要提前配置好jdk环境:配置jdk环境看https://blog.youkuaiyun.com/qq_41813208/article/details/100268044第1步:创建文件夹 上传jdk...原创 2019-09-02 14:25:23 · 115099 阅读 · 0 评论 -
Ubuntu19.04安装配置JDK8
---卸载jdksudo apt-get autoremove openjdk-8-jre-headless不知道版本可以sudo apt-get autoremove openjdk按tab键自动补全第一步:安装配置jdk环境方式一、:sudo apt install openjdk-8-jdk 命令安装 需要联网,首先需要更新一下软件源。该方式是通过包管理进行安装的...原创 2019-09-18 13:34:08 · 166112 阅读 · 1 评论 -
hadoop的发展历史
Lucene 框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。2001年年底Lucene成为Apache基金会的一个子项目。 对于海量数据的场景,Lucene面对与Google同样的困难,存储数据困难,检索速度慢。 学习和模仿Google解决这些问题的办法 :微型版Nutch...原创 2019-09-25 01:24:38 · 144333 阅读 · 0 评论 -
大数据 行业组织结构分析- - - - 分析未来走的方向
平台组:偏向与技术(技术越高薪资越高)、随着年龄增长要求技术不断更新如果达到能修改hadoop等源代码,按照自己的需求修改。进行编译搭建的环境 6w起步。偏向于运维第一个:要把学过的框架环境搭建起来。主要功能采集数据,把需要的数据采集到另外一个平台。第二个:发现框架能不能正常运行、以及监控Flume数据量的情况。第三个:改进框架的性能数据仓库组:(需求...原创 2019-09-25 01:06:20 · 140106 阅读 · 0 评论 -
hadoop学习笔记篇----基础介绍
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。1、Hadoop的特性4V: Volume大量 Velocity高速 Variety多样 Value低价值密度 ...原创 2019-09-03 00:13:28 · 120089 阅读 · 0 评论