
Hadoop
Marho11
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop到底能做什么?怎么用hadoop? 与 R语言简介 以及 MapReduce
调研Hadoop颇久,就是想知道hadoop是什么?hadoop能做什么?怎么用hadoop?最主要是这三块,至于投入和风险也会随之出来(浓缩了我几十页的调研方案啊!!!) hadoop是什么? Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系转载 2014-11-03 13:27:08 · 2909 阅读 · 1 评论 -
Hive伪分布模式安装
1、安装和配置 可以通过下载压缩包来安装一个稳定版的Hive,也可以下载源码进行编译。 1.1 运行HiveServer2和Beeline 1.2要求 java1.7+,官网推荐1.8 Hadoop2.x 1.3安装Hive的稳定版 下载当前稳定版http://mirrors.cnnic.cn/apache/hive/hive-2.1.0/。 解压缩,并重命名 tar -zxv原创 2016-09-08 19:28:32 · 3751 阅读 · 1 评论 -
MapReduce工作原理
本文的目录: 1.MapReduce作业运行流程 2.Map、Reduce任务中Shuffle和排序的过程 MapReduce作业详细的执行流程: 流程分析: 1.在客户端启动一个作业。 2.向JobTracker请求一个Job ID。 3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文转载 2015-09-18 10:01:04 · 686 阅读 · 0 评论 -
多个mapreduce工作相互依赖处理方法完整实例
package org.mahao.mr.iplocation; import java.io.IOException; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache原创 2015-07-16 22:33:39 · 653 阅读 · 0 评论 -
Hadoop集群安装遇到的问题
首先会因为以下几种情况才会出现启动不了datanode。 1.首先修改过master那台的配置文件, 2.多次hadoop namenode -format这种不好的习惯。 一般会出现一下报错: java.io.IOException: Cannot lock storage /usr/hadoop/tmp/dfs/name. The directory is alread转载 2015-04-11 10:46:42 · 2470 阅读 · 0 评论 -
namenode和datanode无法启动问题
datanode无法启动(All directories in dfs.data.dir are invalid) ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: All directories in dfs.data.dir are invalid.原创 2014-11-30 18:52:44 · 1005 阅读 · 0 评论 -
轻松使用Hadoop RPC
Hadoop RPC是Hadoop的一个重要部分,提供分布式环境下的对象调用功能,源码在org.apache.hadoop.ipc中。而HBase也几乎完全copy了这部分的源码,只是在配置项上面有所改动。 关于Hadoop RPC的机制分析和源码解读,网上已经有许多资料,一搜一大把,这里就不在描述了。本文通过一个小例子,介绍如何调用Hadoop RPC。 1. 应用场景 Hadoop RP转载 2015-03-08 10:44:18 · 481 阅读 · 0 评论 -
自己对MapReduce中shuffle过程的理解
shuffle过程包括在Map和Reduce两端中。 在Map端的shuffle过程是对Map的结果进行分区(partition)、排序(sort)和分割(spill),然后将属于同一个划分的输出合并在一起(merge)并写在硬盘上,同时按照不同的划分将结果发送给对应的Reduce(Map输出的划分与Reduce的对应关系由JobTracker确定)。Reduce端又会将各个Map送来的属于同原创 2015-01-16 15:24:06 · 5671 阅读 · 0 评论 -
用单词计数的代码演示Mapre获取命令行参数
本文是基于我自己博客中的一个单词计数程序WordCountApp进行改写的,WordCountApp程序是在程序中指定待处理数据的输入路径和输出路径,这样做就不灵活,不适合实际中的开发。红色部分为修改部分: package hdfs; import java.io.IOException; import org.apache.hadoop.conf.Configuration; impor原创 2014-12-17 21:21:02 · 549 阅读 · 0 评论 -
hadoop使用场景
大数据量存储:分布式存储 日志处理: Hadoop擅长这个 海量计算: 并行计算 ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库 使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统 机器学习: 比如Apache Mahout项目 搜索引擎:hadoop + lucene实现 数据挖掘:目前比较流行转载 2014-12-06 09:39:54 · 568 阅读 · 0 评论 -
Hadoop到底能做什么?怎么用hadoop?
hadoop是什么? (1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任转载 2014-12-06 09:40:49 · 826 阅读 · 0 评论 -
hadoop中的setup()和cleanup()
hadoop中的MapReduce框架里已经预定义了相关的接口,其中如Mapper类下的方法setup()和cleanup()。 setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资源初始化工作,导致重复,程序运行效率不高! c转载 2014-12-21 16:43:32 · 4181 阅读 · 0 评论 -
hadoop单词计数代码
package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.T原创 2014-12-17 10:16:28 · 1092 阅读 · 0 评论 -
Hadoop学习资料、博客及网站汇总
Hadoop官方的中文文档 http://hadoop.apache.org/common/docs/r0.18.2/cn/index.html Hadoop学习资料 -- 这里面总结了很多的东西,值得一一细看 http://cloud21.javaeye.com/blog/607175 关于Hadoop的两本书 -- 有电子书下载 http://caibinb转载 2014-11-29 10:12:47 · 651 阅读 · 0 评论 -
Hadoop 获取Active Namenode的IP地址
由于工作需要,需要拿到当前集群的Active Namenode的Ip地址,所以写以下小代码,防止忘记,记录一下: import java.io.IOException; import java.net.InetSocketAddress; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSys...转载 2018-09-28 10:51:37 · 5538 阅读 · 0 评论