
Hadoop
一只小菜鸟(* ̄︶ ̄)
这个作者很懒,什么都没留下…
展开
-
Hadoop 安装及配置(centos系统)
JDK配置本文操作区别于上一篇的Centos 7 最小系统配置java环境,可自行选择。1.安装jdk a)下载jdk-8u65-linux-x64.tar.gz b)解压JDK包(此处是在centos根目录下的downloads文件夹操作,也可自行选择操作目录)$>su centos ; cd ~$>mkdir downloads$&...原创 2019-01-15 10:37:32 · 289 阅读 · 0 评论 -
Hadoop hdfs切片计算方式
HDFS的block是逻辑上的数据块.Hadoop2.0中每一块默认大小128MB,实际存储过程中block大小小于等128MB,它是以文件为存储对象.如一200MB大小文件,分两个数据块128MB+72MB这里的两个块大实际小分别是128MB和72MB算法分析:getFormatMinSplitSize() = 1 //最小切片值,默认为1max(minSize, min(...原创 2019-03-27 14:02:58 · 2380 阅读 · 0 评论 -
Hadoop 机架感知
假如有一台namenode主节点,四台DataNode节点,分别存在于两个机架s202--192.168.231.202 /rack1/202s203--192.168.231.203 /rack1/203s204--192.168.231.204 /rack2/204s205--192.168.231.205 /rack2/205...原创 2019-04-10 15:27:31 · 168 阅读 · 0 评论 -
Hadoop 高可用配置
HA:high availability,高可用 1.NFS 网络共享存储设备。 2.QJM Quorum Journal Manager 3.两个名称节点 active //激活 standby //待命SPOF : single point of ...原创 2019-04-11 10:15:41 · 602 阅读 · 0 评论 -
Hadoop 介绍
Hadoop是一个开源框架来存储和处理大型数据在分布式环境中。它包含两个模块,一个是MapReduce,另外一个是Hadoop分布式文件系统(HDFS)。MapReduce:它是一种并行编程模型在大型集群普通硬件可用于处理大型结构化,半结构化和非结构化数据。HDFS:Hadoop分布式文件系统是Hadoop的框架的一部分,用于存储和处理数据集。它提供了一个容错文件系统在普通硬件上运...原创 2019-03-28 21:32:58 · 350 阅读 · 0 评论 -
Hadoop job多文件读入 MutltiInputs
MutltiInputs(多输入);使用多个输入作为job的输入来源---------------------------------------------也就是在InputFormat 前把添加各种不同的序列源里面的方法也就是 addInputPath等等。。。。map也可以在这个流程中套进来APP类:package com.mao.hdfs.multiInput;...原创 2019-04-02 14:49:22 · 228 阅读 · 0 评论 -
Hadoop 二次排序
对value进行排序。 实现过程: 1.ComboKey(WritableComparable) 对比方法。package com.mao.hdfs.secondSort;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.Dat...原创 2019-04-08 14:00:17 · 227 阅读 · 0 评论 -
Hadoop 链式处理
APP类:package com.mao.hdfs.chain;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;i...原创 2019-04-08 15:04:34 · 197 阅读 · 0 评论 -
Hadoop mysql读写操作
使用DBWritable完成同mysql交互create database big4 ; use big4 ; create table words(id int primary key auto_increment , name varchar(20) , txt varchar(255)); insert into words(name,txt) values('tom...原创 2019-04-08 18:49:46 · 431 阅读 · 0 评论 -
hadoop 全排序
1.定义1个reduce 2.自定义分区函数. 自行设置分解区间(例如按条件分为三个区) public int getPartition(IntWritable year,IntWritable temp,int parts) { int y = year.get() - 1970; if (y<33){ ...原创 2019-04-03 16:34:47 · 187 阅读 · 0 评论 -
Hadoop 安装LZO
1.在pom.xml引入lzo依赖<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocat...原创 2019-03-29 18:21:34 · 391 阅读 · 0 评论 -
hadoop 远程调试
1.设置服务器java vm的-agentlib:jdwp选项. [server] //windwos //set JAVA_OPTS=%JAVA_OPTS% -agentlib:jdwp=transport=dt_socket,address=8888,server=y,suspend=n //linux export HADOOP_CLIENT...原创 2019-03-29 18:14:27 · 240 阅读 · 0 评论 -
Hadoop 三种配置形态共存
1.创建三个配置目录,内容等同于hadoop目录${hadoop_home}/etc/local${hadoop_home}/etc/pesudo${hadoop_home}/etc/full2.创建符号连接$>ln -s pesudo hadoop ##(使用哪个模式,就将哪个模式创建连接)3.对hdfs进行格式化$>hadoop namenode -f...原创 2019-01-21 14:19:19 · 226 阅读 · 0 评论 -
Hadoop 完全分布式
修改主机名------------------- 1./etc/hostname s201 2./etc/hosts 127.0.0.1 localhost##:下面ip地址为分机ip 192.168.231.201 s201 192.168.231.202 s202 192.1...原创 2019-01-21 14:26:21 · 282 阅读 · 0 评论 -
hadoop 脚本分析,hdfs常用命令
sbin/start-all.sh -------------- libexec/hadoop-config.sh start-dfs.sh start-yarn.sh sbin/start-dfs.sh -------------- libexec/hadoop-config.sh sbin/hadoop-daemons.sh --config .. --hostn...原创 2019-02-22 14:38:10 · 376 阅读 · 0 评论 -
Hadoop 配置临时目录
1.配置[core-site.xml]文件 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://s201/</value> </property> <!--原创 2019-02-22 14:41:03 · 1045 阅读 · 0 评论 -
hadoop 节点的服役和退役
黑白名单的组合情况-------------------------include //dfs.includeexclude //dfs.hosts.includeinclude exclude InterpretationNo No 不能连接No Yes 不能连接Yes No 可以连接Yes Yes 可以连接,将会退役状态。节点...原创 2019-02-22 15:05:18 · 421 阅读 · 0 评论 -
hadoop 临时目录
1.配置[core-site.xml]文件<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://s201/</value> </property> <!--- 配置新的本地目录原创 2019-02-18 15:11:41 · 1444 阅读 · 0 评论 -
Hadoop 制作脚本
1、编写查询分机命令脚本文件## 创建脚本文件:[admin@s135 /]$ vim /usr/local/bin/xcall.sh## 在文件中添加内容:#!/bin/bashparams=$@i=201for (( i=201 ; i <= 204 ; i = $i + 1 )) ; do echo ============= s$i $params ==...原创 2019-02-13 11:46:28 · 699 阅读 · 0 评论 -
Hadoop Mapreduce
Mapreduce :编程模型编写MR:mapper类:package com.mao.hdfs.mr;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hado...原创 2019-03-26 11:00:37 · 128 阅读 · 0 评论 -
hadoop 压缩
package com.mao.hdfs.compress;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.io.compress.*;import org.apache.hadoop.util.ReflectionUtils...原创 2019-03-29 18:08:54 · 118 阅读 · 0 评论 -
hadoop HDFS 的HA集群部署,使用ZK实现自动容灾
完全0开始部署hadoop HDFS的HA集群,使用zk实现自动容灾1.停掉hadoop的所有进程stop-all.sh2.删除所有节点的日志和本地数据. ##批量删除 xcall "rm -rf /soft/hadoop/logs/*" xcall "rm -rf /home/admin/hadoop/*" ##JournalNode 日志也...原创 2019-04-13 11:44:09 · 642 阅读 · 0 评论