
hadoop
文章平均质量分 50
cxx_317
这个作者很懒,什么都没留下…
展开
-
hadoop伪分布环境搭建
1.创建hadoop用户(1)sudo useradd -m hadoop -s /bin/bash(2)为hadoop 用户增加管理员权限 sudo adduser hadoop sudo(3)打开配置文件sudoers sudo cat /etc/sudoers,加入hadoop ALL=(ALL:ALL) ALL 2.安装jdk(已讲解) 3原创 2015-08-10 21:00:59 · 414 阅读 · 0 评论 -
HBase与HDFS结合使用
默认的MapReduce集群没有访问HBase配置或类的权限,so,我们需要将hbase-site.xml文件放到hadoop的安装目录中的conf文件中,并且还需要在hadoop目录下的lib文件夹中加入HBase的Jar包,然后复制更改到集群或者编辑hadoop-evn.sh文件,添加这些更改到HADOOP_CLASSPATH(不推荐)接下来,我们看两个简单的demo:Th原创 2016-05-04 09:49:05 · 1914 阅读 · 0 评论 -
Java MapReduce新旧API的比较
Hadoop的版本0.20.0包含有一个新的 Java MapReduce API,有时也称为"上下文对象"(context object),旨在使API在今后更容易扩展,新的API 在类型上不兼容先前的API。(1)新的API 倾向于使用抽象类,而不是接口,因为这更容易扩展。如在新的API 中, Mapper 和Reducer现在都是抽象类。(2)新的API是在org.apach原创 2015-08-14 20:48:08 · 494 阅读 · 0 评论 -
一、 Reduce侧联结
1、Reduce侧联结的数据流Reduce侧联结采用与数据库技术中相同的命名,故也被称为repartitioned join(重分区联结),或者repartitionedsort-merge join(重分区排序-合并联结)。虽然并非最有效的联结技术,但它是最通用的,进而成为一些更高阶技术的基础。 Reduce侧联结引入了 一些新的术语与概念,名为data source(数据源)、原创 2015-08-28 11:55:36 · 542 阅读 · 0 评论 -
运行hadoop自带的案例—wordcount
主要有四个步骤:一、 在hdfs分布式文件系统 中创建两个文件夹,分别存放输入、输出数据1、 bin/hadoop fs –mkdir –p/data/wordcount 创建的输入数据目录2、 bin/hadoop fs –mkdir –p/output/ 创建的输出数据目录二、 将要测试的文件上传到hdfs文件系统的输入数据原创 2015-08-10 21:25:53 · 1246 阅读 · 1 评论 -
MapReduce的处理流程(一)
1、流程代码编写 =》 作业配置 =》 作业提交 =》 Map任务的分配和执行 =》 处理中间结果 =》 Reduce任务的分配和执行 =》 作业完成在每个任务的执行过程中,又包含输入准备 =》 任务执行 =》 输出结果MapReduce作业的执行可以分为11个步骤,涉及4个独立的实体:客户端(client):编写MapReduce代码,配置作业、提交作业。JobTrac原创 2015-08-10 21:18:37 · 1032 阅读 · 0 评论 -
Hadoop开发环境的配置(安装eclipse)
1. 下载eclipse因为安装了64位的jdk,所以eclipse版本也为64位:eclipse-jee-mars-R-linux-gtk-x86_64.tar.gz 2. 解压缩文件到/opt目录下 sudotar -xsvf ~/下载/ eclipse-jee-mars-R-linux-gtk-x86_64.tar.gz -C /opt/ 3.原创 2015-08-10 21:05:13 · 970 阅读 · 0 评论 -
HDFS文件操作
HDFS文件操作一、概念HDFS是一种文件系统,它存储着Hadoop应用将要处理的数据,专为MapReduce这类框架下的大规模分布式数据处理而设计。为解决传统问题中文件存储的问题—海量数据的存储。二、HDFS设计目标:1、very large files(单个文件/文件总大小)2、streaming data access(write-once,read-many-time)原创 2015-08-10 21:15:11 · 977 阅读 · 0 评论 -
MyJobLink链接MapReduce作业案例,新旧API比较
hadoop基础部分的学习告一段落,休息了几天,现在满血复活了。。。哈哈,让我们一起来学习学习hadoop的第一个链接MapReduce作业的案例吧。在高阶数据处理中,会经常发现无法将整个流程写在单个MapReduce作业中,Hadoop支持将多个MapReduce程序链接成更大的作业。1、顺序链接MapReduce作业虽然两个作业可以手动的逐个执行,但更为快捷的方式是生成一个自动原创 2015-08-25 16:02:17 · 866 阅读 · 0 评论 -
Mapper与Reducer浅析(一)
一、 MapperMapper接口负责数据处理阶段,它采用的形式为MapperJava泛型,这里键类和值类分别实现WritableComparable和Writable接口。Mapper只有一个方法—map,用于处理一个单独的键、值对。Void map(K1key,V1 value,OutputCollector output,Reporter reporter) throw原创 2015-08-10 21:16:39 · 8198 阅读 · 0 评论 -
hadoop环境搭建(一)
搭了好久的环境,总算是有点眉目了……1、安装一个linux系统(或者是虚拟机) 我采用的是虚拟机(ubuntu10.0),直接安装vm,再用镜像文件配置一个虚拟环境……2、配置jdk,(一定要注意系统位数与jdk对应。先在官网上下载满足需求的jdk压缩文件) a、将压缩文件解压 b、将解压的文件拖动到ubuntu环境中的文件中原创 2015-07-25 23:45:25 · 807 阅读 · 0 评论