
hadoop
文章平均质量分 82
52Pig
这个作者很懒,什么都没留下…
展开
-
hadoop概述
Hadoop 是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。HDFS 是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB 级)的大文件(通常超过64M),其原理如下图所示: 采用原创 2014-01-05 13:49:28 · 794 阅读 · 0 评论 -
maven配置文件中修改默认jre
方法一:打开%maven_home%\conf\setting.xml,只会在新建项目时自动使用1.6的导入项目不会在标签内添加如下配置: jdk-1.8 true 1.8 1.8 1.8 1.8 方法二:不同的项目使用不同的jre,pom.xml里添加如下配置导入项目可以这样配置然后进行maven原创 2014-09-29 15:13:04 · 6449 阅读 · 3 评论 -
Hadoop性能调优--用户角度
hadoop性能调优--用户角度原创 2014-09-09 22:58:21 · 2966 阅读 · 0 评论 -
hadoop性能调优--管理员角度二
hadoop参数调优1.合理规划资源1.设置合理的槽位数目在hadoop中,计算资源是用槽位slot表示的。slot分为两种:map slot和reduce slot。每种slot代表一定量的资源,且同种slot代表的资源量是相同的。管理员需根据实际需要为TT配置一定数目的Map slot和Reduce slot,从而限制每个TT上并发执行的Map Task和Red原创 2014-09-08 22:43:55 · 1521 阅读 · 0 评论 -
Hadoop性能调优--管理员角度一
管理员角度主要在四方面进行调优:硬件选择、操作系统、jvm参数调优、hadoop参数调用硬件选择 master(JT或者NN)的配置要远远好于各个slave(TT或者DN);可参考书籍《Hadoop Opertions》操作系统参数调优1.增大同时打开的文件描述符合网络连接上限。管理员在启动hadoop集群时,应使用ulimit命令将允许同时打开的文件描述符数目上限原创 2014-09-08 13:57:04 · 1021 阅读 · 0 评论 -
hadoop集群搭建——hadoop安装
Hadoop集群搭建–Hadoop安装目的本文描述了如何安装、配置和管理有实际意义的Hadoop集群,其规模可从几个节点的小集群到几千个节点的超大集群。如果你希望在单机上安装Hadoop玩玩,从这里能找到相关细节。先决条件确保在你集群中的每个节点上都安装了所有必需软件。获取Hadoop软件包。安装安装Hadoop集群通常要将安装软件解压到原创 2014-01-05 14:08:57 · 953 阅读 · 0 评论 -
MR之SequenceFile详解
package com.leaf.hadoop.second;import java.util.Random;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hado原创 2014-06-27 00:13:21 · 2414 阅读 · 1 评论 -
hadoop-Reduce侧联结
链接不同来源的数据:Reduce侧的联结、DATAJOIN软件包实现联结、 DATAJOIN软件包实现了联结的数据流其中有3个可供继承和具体化的抽象类:DataJoinMapperBase、DateJoinReducerBase和TaggedMapOutput在数据流中mapper输出的包带有一个(组)键和一个被标签记录的值。datajoin包指定(组)键为Text类型,而原创 2014-01-05 14:22:04 · 1263 阅读 · 0 评论 -
Hadoop-基于DistributedCache的复制联结
基于DistributedCache的复制联结(其中一个连接表必须小到可以放到内存中)public class DataJoinDC extends Configured implements Tool { public static class MapClass extends MapReduceBase implements Mapper{ ... } public原创 2014-01-05 14:23:33 · 1385 阅读 · 0 评论 -
hadoop hdfs常用命令
hadoop hdfs常用命令 hadoop常用命令: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 hadoop fs –lsr 循环列出目录、子目录及文件信息 hadoop fs –put test.txt /user/sunlightcs 将本地文件系统的test.txt原创 2014-01-05 14:17:34 · 1228 阅读 · 0 评论 -
云计算是什么意思
云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获原创 2014-01-05 14:10:36 · 1673 阅读 · 1 评论 -
hadoop入门
目的这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。先决条件支持平台GNU/Linux是产品开发和运行的平台。 Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证。 Win32平台是作为开发平台支持的。由于原创 2014-01-05 14:07:09 · 655 阅读 · 0 评论 -
hadoop和云计算的关系
Hadoop主要是由HDFS和MapReduce组成,HDFS是一个分布式文件系统(Hadoop Distributed File System),MapReduce则是用于并行处理大数据集的软件框架。因此,Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是一种技术的实现。Hadoop是Apache基金会下的一款开源软件,它实现了包括分布式文件系统HDFS和MapReduce框原创 2014-01-05 14:05:31 · 2076 阅读 · 0 评论 -
利用HDFS java API增删改查操作
利用HDFS java API增删改查操作在做这个实验的时候需要特别注意下面三个问题:1、hdfs安全模式需要关闭命令:./hadoop dfsadmin -safemode leave2、工程中依赖的版本必须和集群的一致,否则也会报 version不一致错误3、hadoop集群用户权限的问题,以及各个目录的作用目前为什么会有这三个问题的原因待查!!!未验证目前使用hado原创 2014-01-05 14:03:50 · 1272 阅读 · 0 评论 -
利用hdfs搭建网盘
利用hdfs搭建网盘–webserver开发,描述下实现思路:1、网盘系统中的webserver是用来给用户提供操作界面,接收用户指令,完成文件上传、下载、图片上传、下载和图片预览功能的。2、其中关于存储相关的功能都是调用hdfs API来完成,而关于文件的相关结构化信息都存储在mysql关系型数据库中;3、webserver起到的是连接客户和hdfs的作用4、采用的是SSH框架(原创 2014-01-05 14:01:30 · 5515 阅读 · 6 评论