
Hadoop
iteye_4653
这个作者很懒,什么都没留下…
展开
-
Ubuntu14.04安装jdk1.7.0_71
Ubuntu14.04安装jdk1.7.0_71 将位于~下的安装包移动到/usr目录下 切换到root身份进入到/usr文件夹下 解压安装包 tar -zxvf jdk-7u71-linux-i586.tar.gz 建立目录/usr/java并把解压的文件移动到其中 接下来配置环境变量,由于linux是多用户操作系统,所以我们仅仅为需要的用户配置环境变量: 首先切换到要配置环境变量的...2014-10-17 19:41:33 · 208 阅读 · 0 评论 -
Pig安装
Pig有两种使用模式:本地模式和MapReduce模式。Pig进行实际工作的模式是MapReduce模式,使用Pig的MapReduce模式首先需要已经安装好的hadoop集群,关于hadoop集群的搭建在之前已经讲过。下面就在之前搭建的集群的基础上,安装pig。安装过程如下:1 下载pig-0.9.0.tar.gz,复制到hadoop集群的master节点的根目录下(pig相当于h...2014-11-13 16:20:43 · 161 阅读 · 0 评论 -
Hadoop与关系数据库
Hadoop对关系数据库无非两种操作,即从关系数据库输入到HDFS和从HDFS输出到关系数据库。Hadoop中分别提供了DBInputFormat类和DBOutputFormat类,前者用于从关系数据库输入到HDFS,该类将关系数据库中的一条记录作为向Mapper输入的value值,后者用于将HDFS中的文件输出到关系数据库,该类将Reducer输出的key值存储到数据库。我们只要在主程序中设...2014-11-11 21:30:44 · 189 阅读 · 0 评论 -
通过全局文件复制实现多数据源的Map端连接
在DataJoin实现多数据源reduce端连接的过程中,连接在reduce阶段才会进行,因此一些无效的数据在reduce的时候才能去除掉,这样做占用了通信带宽,虽然该方法比较通用,但是效率不高。当数据源中有数据量较小的或者经过处理后数据量较小的数据源的时候,我们考虑使用全局文件复制的方法来实现map端连接。这个过程需要Hadoop缓存系统的支持。Hadoop提供了DistributedC...2014-11-10 17:45:45 · 113 阅读 · 0 评论 -
用DataJoin实现多数据源的Reduce端链接
DataJoin是Hadoop处理多数据源问题的一个jar包,放在HADOOP_HOME/contrib/文件夹下,使用该框架时,除了需要将jar包导入到工程中,还需要将该jar包导入到每个hadoop集群节点的HADOOP_HOME/lib/包下。下面我们来看下DataJoin框架式如何处理多数据源的连接的。为了完成不同数据源的链接,首先,需要为不同数据源下的每个记录定义一个数据源标...2014-11-08 16:51:41 · 144 阅读 · 0 评论 -
hadoop之用户定制
Hadoop提供了9中内置数据类型,分别为:[color=red]BooleanWritableByteWritableIntWritableLongWritableFloatWritableDoubleWritableText(使用UTF8格式存储的文本)NullWritable(空值的时候使用)[/color]当然,用户也可以自定义数据类型,自定义数据类型时...2014-11-04 09:30:27 · 133 阅读 · 0 评论 -
使用复合键优化倒排索引
巧用复合键优化倒排索引程序之前写了一个倒排索引的程序,但是可以注意在到生成的索引文档中,一个单词对应的文档并非是按照词频的大小进行排列的。这不是我们最想要的结果,我们希望对应的文档按照词频的大小进行排列。这里我们使用复合键来完成对文档的排序。巧用复合键可以达到一些优化效果,比如说将多个细粒度的键值对合并为一个处理度的键值对,这样可以减小集群中网络的开销。 比如:可以优化为:&...2014-11-03 11:18:28 · 185 阅读 · 0 评论 -
倒排索引
倒排索引是文档检索系统中最常见的数据结构,被广泛的应用于搜索引擎。它是一种根据内容查找文档的方式。由于不是根据文档来找内容,而是根据进行了相反的操作,因此叫做倒排索引。倒排索引的一个简单结构如下图所示: 单词文档列表 最常见的是使用词频作为权重,即单词在一个文档中出现的次数。如图所示,已知3个文档。 则他们的索引文件为 因此,当搜索条件为“...2014-10-31 11:49:17 · 197 阅读 · 0 评论 -
Reducer多少个最佳
从MapReduce框架的执行流程,我们知道,输入文件会被分成多个splits,每个split对应一个Mapper,所以Mapper的数量由splits的数目决定。而Reducer的数目可以通过job.setNumReduceTasks()函数来设置,默认情况下只有一个,有些时候,Reducer只有一个并不是性能最高,因此我们究竟设置多少个Reducer合适呢?在hadoop中,有个叫做...2014-10-29 20:29:23 · 351 阅读 · 0 评论 -
从WordCount看MapReduce框架执行流程
代码如下:import java.io.IOException;import java.util.StringTokenizer; import org.apache.hadoop.conf.*;import org.apache.hadoop.mapreduce.*;import org.apache.hadoop.util.*;import org.apache....2014-10-29 16:51:21 · 278 阅读 · 0 评论 -
第一个hadoop程序-WordCount
首先说明一下环境:我在前面的博客中搭建的hadoop平台,具体为运行在win7上的eclipse3.3连接到位于ubuntu14.04的hadoop集群,至于具体的搭建方法请参见以前的博客。下面开始在eclipse中调试WordCount程序:打开eclipse,新建一个Map/Reduce Project 在Map/Reduce Project工程下,建立一个java文件...2014-10-28 20:46:27 · 157 阅读 · 0 评论 -
HDFS可靠性措施
HDFS可靠性措施一、冗余备份:数据存储在这些HDFS中的节点上,为了防止因为某个节点宕机而导致数据丢失,HDFS对数据进行冗余备份,至于具体冗余多少个副本,在dfs.replication中配置。二、副本存放:仅仅对数据进行冗余备份还不够,假设所有的备份都在一个节点上,那么该节点宕机后,数据一样会丢失,因此HDFS要有一个好的副本存放策略,该策略还在开发中。目前使用的是,以dfs.r...2014-10-27 08:21:45 · 1022 阅读 · 1 评论 -
Win7上的Eclipse3.3远程连接ubuntu14.04中的hadoop0.20.2
Win7上的Eclipse3.3远程连接ubuntu14.04中的hadoop0.20.2小编最近发了几篇hadoop环境搭建的博文,读者一定要注意,所有的搭建方法中必须使用完全一样的软件版本,否则会出现各种意想不到的错误。这篇博文的环境是:位于win7上的eclipse3.3_win64搭建好的运行在ubuntu14.04上的hadoop0.20.2分布式平台。首先将在ub...2014-10-24 19:15:35 · 102 阅读 · 0 评论 -
ubuntu14.04的hadoop环境搭建(全分布模式)
hadoop0.20.2软件下载http://pan.baidu.com/s/1kTurQJHjdk7u71-linux-i586下载http://pan.baidu.com/s/1pJyT1OZ在搭建集群之前需要作如下准备工作, (博文使用hadoop0.20.203.0作为例子讲解,推荐使用hadoop0.20.2更加稳定,两者配置过程相同)1 配置好静态IP,并且在所有的机器上建...2014-10-20 10:53:37 · 210 阅读 · 0 评论 -
ubuntu实现无密码登陆
环境说明:打在ubuntu系统的两台计算机master和slave1两台计算机均已安装ssh服务两台机器上都存在用户xuyizhen 下面开始配置:在master节点上执行以下命令: 这条命令是生成密钥对,询问其保存路径时直接回车采用默认路径。生成的密钥对:id_rsa和id_rsa.pub,默认存储在"/home/xuyizhen/.ssh"目录下。...2014-10-19 10:43:37 · 1704 阅读 · 0 评论 -
Hive安装
Hive安装hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 Hive是一个客户端工具,需要在哪台机器上运行就在哪台机器上安装,根据metastore的位置可以将hive的安装模式分为3种:内嵌模式,本地模式,远程模式。Hive的安装是需要在hadoop基础上的,...2014-11-21 20:43:35 · 108 阅读 · 0 评论