
hadoop
文章平均质量分 81
apache-bbccb
这个作者很懒,什么都没留下…
展开
-
ubuntu中配置SSH
1到 https://launchpad.net/ubuntu/lucid/i386/openssh-client/1:5.3p1-3ubuntu3。下载文件” openssh-client_5.3p1-3ubuntu3_i386.deb ”并在终端中安装。sudo dpkg -i openssh-client_5.3p1-3ubuntu3_i386.deb 2到https转载 2014-01-24 11:30:15 · 583 阅读 · 0 评论 -
apache phoenix插入中文字符
apache phoenix连接hbase插入中文字符出现CHAR types may only contain single byte characters原创 2014-08-22 15:38:18 · 2231 阅读 · 0 评论 -
Linux环境下(ubuntu 12.04)如何编译hadoop2.4
1.如果获取hadoop src maven包?2.编译hadoop需要装哪些软件?3.如何编译hadoop2.4?扩展:编译hadoop为何安装这些软件?一、首先下载hadoop源码包下载的方式还是比较多的1.svn的方式svn下载首先需要安装SVN,如果想尝试使用svn,可以参考源码管理、获取网络源码工具:TortoiseSVN使用手册,h转载 2014-09-21 22:06:54 · 555 阅读 · 0 评论 -
hadoop1.1.2环境搭建所需要修改的文件
1.hadoop-env.shexportJAVA_HOME=/usr/local/jdk/2.core-site.xml fs.default.name hdfs://master:9000 hadoop.tmp.dir /usr/local/hadoop/data原创 2014-09-26 16:57:20 · 550 阅读 · 0 评论 -
spark安装
1.Spark简介简单总结一下Spark的特性:首先介绍一下Spark的生态系统。fast: Spark引入了一种叫做RDD的概念(下一篇详细介绍),官方宣称性能比MapReduce高100倍fault-tolerant: Spark的RDD采用lineage(血统)来保存其生成轨迹,一旦节点挂掉,可重新生成来保证Job的自动容错sc转载 2014-10-12 18:41:44 · 530 阅读 · 0 评论 -
hadoop参数优化
io.file.buffer.size hadoop访问文件的IO操作都需要通过代码库。因此,在很多情况下,io.file.buffer.size都被用来设置缓存的大小。不论是对硬盘或者是网络操作来讲,较大的缓存都可以提供更高的数据传输,但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数,以byte为单位,默认值是4KB,一般情况下,可以设置为64KB(65536byte转载 2015-01-28 12:35:37 · 498 阅读 · 0 评论 -
mapreduce实现推荐系统
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风转载 2015-01-04 16:29:10 · 4723 阅读 · 0 评论 -
使用JobControl管理mapreduce多job依赖
/** * job2 依赖于 job1 * @param job1 * @param job2 * @param chainName * @return * @throws IOException */ public static int handleJobChain(Job job1 ,Job job2, String chainName) throws IOExc原创 2015-03-24 14:39:24 · 829 阅读 · 0 评论 -
Hadoop Job优化
Hadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交换吞吐量也在面临考验,由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发,针对Hadoop Job优化提出了一些观点,不包含HDFS的优化。Job Tracker Related严格来说,原创 2015-03-24 19:35:27 · 364 阅读 · 0 评论 -
eclipse环境下,mapreduce发送到集群运行
package com.zte.esb.utils;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.util.jar.JarEntry;import java.util.jar.JarOut原创 2014-10-28 17:49:09 · 612 阅读 · 0 评论 -
hadoop 性能调优 重要参数设置技巧
这里主要针对Mapreduce的性能调优。这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以帮后人~这里主要涉及的参数包括:HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentmapred.local.dirmapred.转载 2015-03-24 13:53:10 · 1204 阅读 · 0 评论 -
hadoop参数优化
shuffle:map的输出到reduced的消化输入的过程就是shufflecombine:写到本地磁盘和传到reduce端的数据更少mapred-default.xml配置参数说明map端 默认值 mapred.submit.replication10提交作业jar的副本,供tasktracke原创 2015-04-23 16:01:10 · 583 阅读 · 0 评论 -
脚本判断hdfs上的文件是否存在
hadoop fs -test -e /user/hive/INSTALL/_SUCCESSif [ $? -eq 0 ]thenhive -e "load data inpath '/user/hive/CS_INSTALL' overwrite into table userinstall_nor_f partition (etl_date=$prex) "exit fi原创 2015-07-02 17:13:41 · 1785 阅读 · 0 评论 -
在HADOOP中使用MRUNIT进行单元测试
前提1. 了解JUnit4.x的使用。2. 了解Mock的概念在单元测试中的应用。3. 了解Hadoop中MapReduce的编程模型。如果您对Junit和Mock不了解,可以先阅读[翻译]Unit testing with JUnit 4.x and EasyMock in Eclipse - Tutorial。如果您对Hadoop中MapReduce的编程模转载 2014-07-15 11:22:59 · 1057 阅读 · 0 评论 -
mongodb详细配置说明
--quiet# 安静输出--port arg# 指定服务端口号,默认端口27017--bind_ip arg# 绑定服务IP,若绑定127.0.0.1,则只能本机访问,不指定默认本地所有IP--logpath arg# 指定MongoDB日志文件,注意是指定文件不是目录--logappend#转载 2014-06-20 09:28:31 · 567 阅读 · 0 评论 -
数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2014-06-03 14:19:42 · 491 阅读 · 0 评论 -
在Apache HBase上执行SQL查询的一些学习资料
http://itindex.net/detail/42445-phoenix-apache-hbasehttp://phoenix.apache.org/http://www.tuicool.com/articles/iyYR7vM原创 2014-06-27 10:38:48 · 613 阅读 · 1 评论 -
海量数据面试题整理
1、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。转载 2014-05-28 15:27:21 · 615 阅读 · 0 评论 -
ZooKeeper伪分布式集群安装及使用
ZooKeeper伪分布式集群安装及使用让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。现在硬件越来越便宜,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,已经降到2万块人民币以下了。这种配置如果简单地放几个web应用,显然是奢侈的浪费。就算是用来实现单节点的hadoop转载 2014-07-22 08:21:47 · 591 阅读 · 0 评论 -
详细讲解hadoop2的automatic HA+Federation+Yarn配置的教程
前言 hadoop是分布式系统,运行在linux之上,配置起来相对复杂。对于hadoop1,很多同学就因为不能搭建正确的运行环境,导致学习兴趣锐减。不过,我有免费的学习视频下载,请点击这里。 hadoop2出来后,解决了hadoop1的几个固有缺陷,比如单点故障、资源利用率低、支持作业类型少等问题,结构发生了很大变化,是hadoop未来使用的一个趋势。当然,配转载 2014-05-30 16:28:36 · 685 阅读 · 0 评论 -
详细的hadoop2.2.0集群的HA高可靠的最简单配置
转载来至吴超老师:http://www.cnblogs.com/meiyuanbao/p/hadoop2.html转载 2014-05-30 16:40:11 · 713 阅读 · 0 评论 -
详细的hadoop2.2.0集群的MapReduce的最简单配置
转载来至吴超老师:http://www.cnblogs.com/meiyuanbao/p/3534376.html简介 hadoop2的中的MapReduce不再是hadoop1中的结构已经没有了JobTracker,而是分解成ResourceManager和ApplicationMaster。这次大变革被称为MRv2或者YARN,是一次革命性的变化。转载 2014-05-30 16:41:23 · 543 阅读 · 0 评论 -
flume的原理和使用
概述 flume是cloudera公司的一款高性能、高可能的分布式日志收集系统。flume的核心是把数据从数据源收集过来,再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,删除自己缓存的数据。flume传输的数据的基本单位是event,如果是文本文件,通常是一行记录,这也是事务的基本单位。flume运行的核心是a转载 2014-07-05 00:03:39 · 738 阅读 · 0 评论 -
Apache phoenix
IntroductionHBase is one of the most popular NoSQL databases, it is available in all major Hadoop distributions and also part of AWS Elastic MapReduce as an additional application. Out of the box转载 2014-07-25 09:23:11 · 1344 阅读 · 0 评论 -
hadoop的核心思想
1.1.1. hadoop的核心思想Hadoop包括两大核心,分布式存储系统和分布式计算系统。1.1.1.1. 分布式存储为什么数据需要存储在分布式的系统中哪,难道单一的计算机存储不了吗,难道现在的几个TB的硬盘装不下这些数据吗?事实上,确实装不下。比如,很多的电信通话记录就存储在很多台服务器的很多硬盘中。那么,要处理这么多数据,必须从一台一台服务器分别读取数据和写入数据,转载 2014-07-05 00:03:32 · 461 阅读 · 0 评论 -
hadoop MapReduce join
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File转载 2014-06-03 11:04:44 · 407 阅读 · 0 评论 -
Hive的数据存储模式
Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。 一、Hive的数据存储 在《Hive到底是什么》博文中我们提到Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式转载 2014-06-03 11:24:21 · 655 阅读 · 0 评论 -
hadoop能用到的系统端口
hadoop系统部署时用到不少端口。有的是Web UI所使用的,有的是内部通信所使用的,有的是监控所使用的。实际系统中可能用于防火墙的端口设计。一些内部通信用的端口可能也需要外部能访问。如两个集群的数据对拷。1.系统8080,80 用于tomcat和apache的端口。22 ssh的端口2.Web UI用于访问和监控Hadoop系统运行状态转载 2016-02-18 08:48:02 · 599 阅读 · 0 评论