
hadoop
文章平均质量分 79
xinpiannanhai
这个作者很懒,什么都没留下…
展开
-
Hadoop 2.0底层工作原理
1 HDFS简介1.1 Hadoop 2.0介绍Hadoop是Apache的一个分布式系统基础架构,可以为海量数据提供存储和计算。Hadoop 2.0即第二代Hadoop系统,其框架最核心的设计是HDFS、MapReduce和YARN。其中,HDFS为海量数据提供存储,MapReduce用于分布式计算,YARN用于进行资源管理。Hadoop 1.0和Hadoop 2.0的结构对比:Hadoop 2...转载 2018-05-09 19:26:46 · 5596 阅读 · 0 评论 -
hadoop fs 命令使用
hadoop 文件系统配置文件按如下查找顺序1. hadoop jar里的hadoop-default.xml2. $HADOOP_CONF_DIR下的hadoop-default.xml3. $HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的DFS。4. 如果传递uri做参数,那么就是特定的文件系统作为DFS。1234命令...转载 2018-05-11 15:02:09 · 467 阅读 · 0 评论 -
HDFS的压缩和解压缩案例(带注释详解,适合java不熟的小伙伴们分析)
压缩操作这里用bz2的方式进行压缩,bz2压缩方式是可切分的可切分:对应的压缩算法是否可以搜索数据流的任意位置并进一步往下读取数据。package cn.codec;import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.InputStream;import java.io.Outpu...原创 2018-05-17 21:56:53 · 2622 阅读 · 1 评论 -
HDFS分布式文件存储系统详解
HDFS简介一、HDFS:Hadoop Distributed File System 1. 一个分布式文件系统 2. 基于流数据模式访问和处理超大文件的需求而开发的 3. 适合应用在大规模数据集上 优点: 1.处理超大文件 能用来存储管理PB级的数据 ...原创 2018-05-11 20:57:55 · 8492 阅读 · 0 评论 -
hadoop ---------HDFS阶段总结(要求掌握的知识总结大纲)
大数据的特征是什么?答:1.数据量大 2.数据类型多样化 3.价值密度低,商业价值高 4.速度输入输出要求快大数据集群的搭建详细步骤HDFS是什么?答:分布式文件存储系统HDFS优点是什么?答:1.处理超大的文件 2.流式的数据访问 3.可以处理结构化、半结构化、非结构化数据 HDFS缺点/局限性是什么? 答:1.不适合处理低延...原创 2018-05-19 20:14:36 · 597 阅读 · 0 评论 -
HDFS通过java接口实现读、写、删除文件、添加目录等案例
通过URL方式读取HDFS上的文件package cn.homework;import java.io.IOException;import java.io.InputStream;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.apache.hadoop.io.IOUtils...原创 2018-05-15 00:17:23 · 8706 阅读 · 0 评论 -
hadoop1.0/2.0 mapreduce架构及底层实现原理 转载自https://blog.youkuaiyun.com/yybk426/article/details/76601921
MapReduce1.x架构客户端向JobTracker提交一个作业,JobTracker把这个作业拆分成很多份,然后分配给TaskTracker(任务执行者)去执行,TaskTracker会隔一段时间向JobTracker发送心跳信息,如果JobTracker在一段时间内没有收到TaskTracker的心跳信息,JobTracker会认为TaskTracker死掉了,会把TaskTracker的...转载 2018-05-28 19:16:37 · 872 阅读 · 0 评论