
Hadoop
ITBOY_ITBOX
技术人生,管理天涯
展开
-
集群大小的规划
原创 2021-05-24 10:03:11 · 168 阅读 · 0 评论 -
磁盘间数据均衡
磁盘间数据均衡(1)生成均衡计划(我们只有一块磁盘,不会生成计划)hdfs diskbalancer -plan hadoop103(2)执行均衡计划hdfs diskbalancer -execute hadoop103.plan.json(3)查看当前均衡任务的执行情况hdfs diskbalancer -query hadoop103(4)取消均衡任务hdfs diskbalancer -cancel hadoop103.plan.json...原创 2021-04-05 22:10:00 · 238 阅读 · 0 评论 -
集群数据均衡
集群数据均衡1)节点间数据均衡(1)开启数据均衡命令:start-balancer.sh -threshold 10对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。(2)停止数据均衡命令:stop-balancer.sh注意:由于HDFS需要启动单独的Rebalance Server来执行Rebalance操作,所以尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器...原创 2021-04-05 21:55:06 · 349 阅读 · 0 评论 -
xsync分发脚本
#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if ((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname#3 获取上级目录到绝对路径pdir=`cd -P $(dirname $p1); pwd`...原创 2019-05-12 12:30:17 · 600 阅读 · 0 评论 -
Snappy压缩源码编译
编译前资源准备1.CentOS联网 配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的 注意:采用root角色编译,减少文件夹权限出现问题2.jar包准备(hadoop源码、JDK8 、maven、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u144-linux-x...原创 2019-05-05 15:16:10 · 1391 阅读 · 0 评论 -
Hadoop常见端口
Namenode 50070 web访问端口 DataNode 50075 SecondaryNamenode 50090 Yarn 8088 web访问端口 ...原创 2019-05-09 09:56:01 · 255 阅读 · 0 评论 -
Hadoop运行模式之伪分布式运行模式
启动HDFS并运行MapReduce程序1. 分析 (1)配置集群 (2)启动、测试集群增、删、查 (3)执行WordCount案例2. 执行步骤(1)配置集群(a)配置:hadoop-env.shLinux系统中获取JDK的安装路径:[atguigu@ hadoop101 ~]# echo $JAVA_HOME/opt/module/jd...原创 2019-05-09 09:55:24 · 244 阅读 · 0 评论 -
Hadoop运行模式之本地运行模式
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。Hadoop官方网站:http://hadoop.apache.org/本地运行模式官方Grep案例1. 创建在hadoop-2.7.2文件下面创建一个input文件夹[atguigu@hadoop101 hadoop-2.7.2]$ mkdir input2. 将Hadoop的xml配置文件复制到in...原创 2019-05-09 09:43:00 · 288 阅读 · 0 评论 -
Hadoop编译源码
前期准备工作1. CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com是畅通的注意:采用root角色编译,减少文件夹权限出现问题2. jar包准备(hadoop源码、JDK8、maven、ant 、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u144-linux-x64.tar.gz...原创 2019-05-09 01:01:21 · 132 阅读 · 0 评论 -
Hadoop运行环境搭建
虚拟机环境准备第一步操作1. 克隆虚拟机2. 修改克隆虚拟机的静态IP编辑vim /etc/sysconfig/network-scripts/ifcfg-eth0改成=================================DEVICE=eth0TYPE=EthernetONBOOT=yesBOOTPROTO=staticNAME="eth0"IPADD...原创 2019-05-09 00:37:55 · 228 阅读 · 0 评论 -
Hadoop组成
HDFS架构概述HDFS(Hadoop Distributed File System)的架构概述 1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等 2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。...原创 2019-05-08 22:52:34 · 170 阅读 · 0 评论 -
Hadoop概述
Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop发展历史 1)Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能...原创 2019-05-08 22:31:09 · 339 阅读 · 0 评论 -
大数据概论
介绍 大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 主要解决,海量数据的存储和海量数据的分析计算问题。 按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。...原创 2019-05-08 13:03:42 · 634 阅读 · 0 评论 -
Hadoop运行模式之完全分布式运行模式
分析: 1)准备3台客户机(关闭防火墙、静态ip、主机名称) 2)安装JDK 3)配置环境变量 4)安装Hadoop 5)配置环境变量以上5步骤请参看https://blog.youkuaiyun.com/m0_37294838/article/details/89989300 6)配置集群 ...原创 2019-05-02 10:34:44 · 286 阅读 · 0 评论 -
分发脚本
1. scp(secure copy)安全拷贝(1)scp定义: scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)(2)基本语法 scp -r $pdir/$fname $user@hadoop$host:$pdir/$f...原创 2019-05-01 21:29:27 · 874 阅读 · 0 评论