
Hadoop
小口天,
这个作者很懒,什么都没留下…
展开
-
Hadoop----MapReduce求共同好友
原文件说明:人物:好友1、好友2......A: B,C,D,F,E,OB: A,C,E,KC: F,A,D,ID: A,E,F,LE: B,C,D,M,LF: A,B,C,D,E,O,MG: A,C,D,E,FH: A,C,D,E,OI: A,OJ: B,OK: A,C,DL: D,E,FM: E,F,GO: A,H,I,J一、找出所有人两两之间的所有共同好...原创 2019-11-28 17:19:12 · 745 阅读 · 0 评论 -
hadoop----mapreduce的案例(三)(自定义InputFormat)
案例三将奇数行记录转成key,偶数行转成value从而进行输出MyRecordReaderpublic class MyRecordReader extends RecordReader<Text, Text>{ private long start; private long end; private LineReader in; private FSDataInpu...原创 2019-06-12 22:50:32 · 530 阅读 · 0 评论 -
hadoop----mapreduce的案例(四)(利用shuffle进行排序)
案例四使用MapReduce程序读取三个文件中的数据,进行排序(利用shuffle阶段的排序)注意:shuffle阶段的排序是针对key进行排序的map函数public class MyMapper extends Mapper<LongWritable, Text, LongWritable, LongWritable>{ @Override protected v...原创 2019-06-13 01:14:53 · 587 阅读 · 0 评论 -
Hadoop----QJM的高可用性
问题:集群的Namenode存在单点故障解决方式:(1)使用QJM(Quorum Journal Manager)的HDFS高可用性(2)使用NFS的高可用性影响可用性的两个主要方面(1)计划外事件(例如计算机崩溃)(2)计划内事件(如NameNode计算机上的软件或硬件升级)将导致群集停机时间段。高可用的简介:(1)只有两台独立的计算机配置为NameNode,其中一个NameN...原创 2019-10-25 09:12:04 · 744 阅读 · 0 评论 -
hadoop----mapreduce的案例(五)(自定义类实现WritableComparable接口)
案例五统计手机号的 总上行流量 总下行流量 总流量 手机号 上行流量 下行流量 13726230501 200 1100 13396230502 300 1200 13396230502 320 500 13396230502 100 3200 13897230503 400 1...原创 2019-06-14 20:06:08 · 871 阅读 · 0 评论 -
hadoop----mapreduce的案例(六)(实现定制的Writable集合)
案例六二次排序:就是先按照第一个字段排序,如果第一个字段相同,再按照第二个字段排序账号(Account) 金额(price)hadoop@apache 200hive@apache 550yarn@apache 580hive@apache 159hadoop@apache ...原创 2019-06-15 00:55:24 · 500 阅读 · 0 评论 -
hadoop----mapreduce的案例(二)(自定义InputFormat)
案例二现有一个文件,需要统计奇偶行的和,即:统计 1,3,5…的和与2、4、6…行的和分析:k1是行号,v1是行记录<k1,v1>----map----<k2,v2>----reduce----<k3,v3>1 12 key1,[v,v,v,…] 奇数:num2 13 key2,[v,v,...原创 2019-06-12 00:51:37 · 440 阅读 · 0 评论 -
集群的高可用性----自动故障转移
自动容灾当状态为Active的Namenode主机发生故障时,HDFS进行自动故障转移,让状态为Standby的Namenode主机转成状态为Active的Namenode进行工作。原创 2019-07-07 22:04:47 · 1839 阅读 · 0 评论 -
Hadoop----HDFS读写流程+复本存放策略+一致模型
剖析文件读取剖析文件写入原创 2019-08-29 23:58:04 · 801 阅读 · 0 评论 -
hadoop----mapreduce的案例(一)(找最高分,平均分)
案例一现有三个文件,分别放置五个学生三门学科成绩如下图所示,需要通过mapreduce程序,找出每一个学生的最高分和平均分最高分mappublic class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ @Override protected void map(LongWritabl...原创 2019-06-11 00:53:46 · 3294 阅读 · 0 评论 -
hadoop----IDE简单操作HDFS
写入数据FileSystem类有一系列新建文件的方法,最简单的方法就是给准备建的文件指定一个Path对象,然后返回一个写入数据的输出流。import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import or...原创 2019-04-24 18:02:11 · 691 阅读 · 0 评论 -
hadoop----MapReduce简单案例(续)
找出气象数据集中的最高气温map函数import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce...原创 2019-05-04 18:36:08 · 498 阅读 · 0 评论 -
Hadoop----单节点集群安装
Hadoop的安装模式单节点上的独立模式(Standalone/loacal)也叫本地模式,使用的文件系统:本地文件系统,运行在单个jvm上,一般用来进行开发测试MapReduce程序单节点上的伪分布模式(Pseudo-Distributed )Hadoop可以在单节点上以伪分布式模式运行,其中每个Hadoop守护进程运行在单独的Java进程中。多节点的完全分布模式(Fully-Di...原创 2019-03-16 23:32:17 · 950 阅读 · 0 评论 -
Hadoop----完全分布式集群的搭建
完全分布式集群(Fully-Distributed Cluster)的原理Hadoop的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。我们需要在所有的主机上安装JDK和Hadoop,组成相互连通的网络。在主机间设置SSH免密码登录,把各从节点生成的公钥添加到主节点的信任列表。搭建hadoop完全分布式集群...原创 2019-03-28 18:03:07 · 551 阅读 · 0 评论 -
Hadoop----hdfs dfs常用命令的使用
用法lsUsage: hdfs dfs -ls [-R] < args>原创 2019-04-10 01:53:15 · 59996 阅读 · 2 评论 -
Hadoop----hdfs快照
概况HDFS快照是文件系统的只读时间点副本。可以在文件系统的子树或整个文件系统上拍摄快照。快照的一些常见用例是数据备份,防止用户错误和灾难恢复。特点快照创建是即时的:成本是O(1),不包括inode查找时间。仅当相对于快照进行修改时才使用附加内存:内存使用量为O(M),其中M是已修改文件/目录的数量。不复制datanode中的块:快照文件记录块列表和文件大小。没有数据复制。快照不会对常...原创 2019-04-14 00:48:56 · 944 阅读 · 0 评论 -
Hadoop----IDE集成HDFS的搭建
IDE作为可视化客户端连接HDFS第一步:安装插件将hadoop-eclipse-plugin-2.7.3.jar放入eclipse的plugins目录下(如果plugins目录下不生效,则放置在dropins目录下,我的就是放置在此目录下)第二步:打开eclipse,在窗口map/reduce location下新建连接如果窗口不存在,点击Windows,选择"Show View”,...原创 2019-04-15 00:49:24 · 466 阅读 · 0 评论 -
hadoop----IDE读取HDFS文件数据
从Hadoop URL读取数据要从Hadoop文件系统读取文件,最简单的方法就是使用java.net.URL对象打开数据流,从中读取是数据。第一步:新建Java工程,并添加所需要的jar包,再创建测试类第二步:打开测试类,填写代码import java.io.IOException;import java.io.InputStream;import java.net.Malforme...原创 2019-04-19 00:11:51 · 694 阅读 · 0 评论 -
hadoop----IDE集成HDFS的搭建(续)
API开发的运行环境配置第一步:解压Hadoop-2.7.3.tar.gz第二步:在windows->preferences->Hadoop map/reduce配置hadoop的安装路径(根目录)第三步: 配置环境变量HADOOP_HOME:E:\1705Linux\Hadoop\hadoop-2.7.3(new)\hadoop-2.7.3PATH:%HADOOP_HOM...原创 2019-04-19 01:29:39 · 539 阅读 · 0 评论 -
hadoop----MapReduce简单案例
MapReduceMapReduce是一种可用于数据处理的编程模型。Hadoop可以运行各种语言版本的MapReduce程序。MapReduce程序本质上是并行运行的,因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。MapReduce的优势在于处理大规模数据集。map和reduceMapReduce任务过程分为两个处理阶段:map阶段和reduce阶段。每阶段都...原创 2019-05-04 13:31:20 · 1282 阅读 · 1 评论 -
Hadoop----伪分布式集群搭建
定义Hadoop伪分布式集群(pseudo distributed cluster),就是在一台主机上模拟多个主机(数据存储节点)。即hadoop的守护程序在本地计算机(这个指的是Linux虚拟机)上运行,模拟集群环境,并且是相互独立的Java进程。在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由ResourceManager服务来管理的独立进程。比单节点集群(local m...原创 2019-03-20 17:07:49 · 799 阅读 · 0 评论