
Hadoop
mitsuhide1992
软件研发工程师
展开
-
Hadoop框架初学
问题的产生主要是为了解决并行计算和分布式存储问题,因为一台计算机的处理能力有限,所以想着把一个很大的计算任务分成很多小任务,分发给各个机器。这些机器需要共享一个分布式文件系统,才能把结果写入文件。同时,目前的文件,硬盘都非常大,但是访问的带宽却跟不上容量的速度。 这样,就想这把一个大文件拆成很多小文件,分别存储在不同机器上,这样带宽就是所有机器的带宽加和,提高了访问速度。我理解的是这样,可能有误。原创 2016-04-28 16:07:16 · 543 阅读 · 0 评论 -
MapReduce\Tez\Storm\Spark四个框架的异同
1) MapReduce:是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,非常适合数据密集型计算。2) Spark:MapReduce计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘计算框架,而Spark则是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。3) Storm:MapReduce也不适合进行流式计算、实时分析,比如转载 2016-04-28 16:56:36 · 4834 阅读 · 0 评论 -
流式大数据处理的三种框架:Storm,Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括spout和b转载 2016-07-22 11:34:06 · 5733 阅读 · 0 评论 -
MapReduce初试
面试中问到mapreduce,所以装了单机版mapreduce,hadoop2,尝试一下。工具idea,maven,jdk8Maven配置<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001原创 2016-09-29 12:35:47 · 338 阅读 · 0 评论