
hadoop/hbase/data process
文章平均质量分 72
LifeFighter
上海市闵行区上海交通大学闵行校区
展开
-
Hadoop和云计算有什么关系?
Hadoop是Apache 基金会下的一款开源软件,它实现了包括分布式文件系统和 MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,其已成为工业界和学术界进行云计算应用和研究的标准平台。Hadoop现在已经广泛应用于包 括 FaceBook,Twitter, Yahoo! 等公司,通常情况下这些机群包括数以千计的服务器和数以万计原创 2013-06-10 19:10:36 · 1234 阅读 · 0 评论 -
MapReduce编程基础
MapReduce编程基础1. WordCount示例及MapReduce程序框架2. MapReduce程序执行流程3. 深入学习MapReduce编程(1)4. 参考资料及代码下载 . WordCount示例及MapReduce程序框架 首先通过一个简单的程序来实际运行一个MapReduce程序,然后通过这个程序我们来哦那个结一下MapR转载 2013-07-21 17:58:50 · 773 阅读 · 0 评论 -
Hadoop版本选择探讨
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1 Apache版本衍化截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoo转载 2013-07-22 17:19:28 · 860 阅读 · 0 评论 -
Hadoop pipes设计原理
1. 什么是Hadoop pipes?Hadoop pipes允许用户使用C++语言进行MapReduce程序设计。它采用的主要方法是将应用逻辑相关的C++代码放在单独的进程中,然后通过Socket让Java代码与C++代码通信。从很大程度上说,这种方法类似于Hadoop Streaming,不同之处是通信方式不同:一个是标准输入输出,另一个是socket。org.apache.had转载 2013-07-22 17:02:11 · 799 阅读 · 0 评论 -
大数据处理开放数据集
开放数据集合分享巧妇难为无米之炊,如果没有数据,大数据Hadoop系统再大也无意义了。给大家推荐几个数据集合1.【Stanford Dataset】来源于美国斯坦福大学SNAP实验室,数据子集合涉及社交网络,Ground-Truth社区网络,通信网络,引用网络,协同网络,Web图挖掘等16个大类,138个小类,总大小达45.9G。下载地址:http://转载 2013-07-22 16:38:12 · 1847 阅读 · 0 评论 -
Hadoop书籍和网络资源介绍
本文介绍Hadoop Core(MapReduce和HDFS)相关的书籍和网络资源。【Hadoop书籍】这些书均可以从http://ishare.iask.sina.com.cn/上下载电子版,有些书籍是作者主动开源的,另外一些是不劳而获者上传的,可用于学习,但不要盗印。(1)Hadoop技术内幕:深入解析MapReduce架构设计与实现原理从源代码角度深入剖析Hadoop M转载 2013-07-22 17:06:15 · 1047 阅读 · 0 评论 -
Hadoop MapReduce容错性分析
文讲述Hadoop-0.21.0 以及以上版本中MapReduce的容错机制。包括JobTracker,TaskTracker,Job,Task,Record等级别的容错机制。1. JobTracker暂无容错机制,挂掉之后,需要人工介入,重启。用户可以通过配置一些参数,以便JobTracker重启后,让所有作业恢复运行。用户配置若干参数后,JobTracker重启前,会在hist转载 2013-07-22 17:12:48 · 860 阅读 · 0 评论 -
Hadoop 2.0中的基本术语解释
在阅读Hadoop 2.0的相关资料时,很多人将一些概念混淆了,本文将对Hadoop 2.0涉及到的术语进行比较全面的介绍。(1) Hadoop 1.0第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Had转载 2013-07-22 17:16:26 · 787 阅读 · 0 评论 -
Apache Hadoop 2.0 (Alpha)发布了
Apache Hadoop 2.0-alpha发布了,直接从0.23.x升为2.0版本,让我们再一次被Hadoop版本的混乱无序状态搞晕。本文将解析Hadoop -2.0-alpha中的新特性。相对于Hadoop-1.x版本(为了更全面的描述Hadop 2.0中的新特性,我们没有将之与0.23.x比较),添加了以下几个功能:1. HDFS HA (manual failover)H转载 2013-07-22 17:18:18 · 900 阅读 · 0 评论 -
HDFS小文件问题及解决方案
1、 概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间(见参考资料[1转载 2013-07-22 16:58:38 · 873 阅读 · 0 评论 -
Hadoop Streaming
一、Hadoop Streaming 它是hadoop的一个工具,用来创建和运行一类特殊的map/reduce作业。所谓的特殊的map/reduce作业可以是可执行文件或脚本本件(python、PHP、c等)。Streaming使用“标准输入”和“标准输出”与我们编写的Map和Reduce进行数据的交换。由此可知,任何能够使用“标准输入”和“标准输出”的编程语言都可以用来编写MapRed转载 2013-07-21 19:15:33 · 818 阅读 · 0 评论 -
Hadoop Streaming 编程
1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-s转载 2013-07-21 20:08:19 · 848 阅读 · 0 评论 -
大数据之路不乏荆棘,然则其中的机遇却高于一切
摘要:数据体积庞大、数据类型的繁多、处理速度上近实时的苛刻需求、人才的匮乏,大数据应用之路上从不乏挑战,然而提高生产力,分析趋势、帮助竞争等优势却诱惑着更多的机构步上这条荆棘之路。随着生活越来越丰富,大数据也变得越来越难以处理;同时因为数据体积增大、数据类型繁多,技术人员在分析过程中不得不克服大量的挑战和障碍。本文将讨论为什么数据会变得越来越复杂及难以管理,以及在我们分析、整合及存储这转载 2013-07-23 15:34:54 · 901 阅读 · 0 评论 -
Hive体系结构
Hive体系结构 —— 深入浅出学Hive 目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 第一部转载 2013-07-29 16:40:15 · 1431 阅读 · 0 评论 -
hive的数据格式
Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。其次,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:Table,External Table,Partition,Bucket。Hive 中的 Table 和数据库中转载 2013-07-29 16:12:01 · 1167 阅读 · 0 评论 -
经典论文翻译导读之《Google File System》
英文原文:The Google File System,编译:ImportNew 储晓颖 新浪微博:@疯狂编码中的xiaoY 【译者预读】 GFS这三个字母无需过多修饰,《Google File System》的论文也早有译版。但是这不妨碍我们加点批注、重温经典,并结合上篇Haystack的文章,将GFS、TFS、Haystack进行一次全方位的对比,一转载 2013-08-10 19:32:53 · 1144 阅读 · 0 评论 -
mapreduce官方文档中文版
先决条件请先确认Hadoop被正确安装、配置和正常运行中。更多信息见:Hadoop快速入门对初次使用者。Hadoop集群搭建对大规模分布式集群。概述Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。一个Map/Reduce 作业(job)转载 2013-08-11 14:22:41 · 1634 阅读 · 1 评论 -
计算机领域世界顶尖学术期刊与会议论文
1ACM SIGCOMM: ACM Conf on Communication Architectures, Protocols & AppsACM的旗舰会议之一,也是网络领域顶级学术会议,内容侧重于有线网络,每年举办一次,录用率约为10%左 右。网络通信领域2IEEE INFOCOM: The Conference on Computer Communic原创 2013-06-04 23:24:26 · 3695 阅读 · 0 评论 -
数据分析≠Hadoop+NoSQL,不妨先看完善现有技术的10条捷径
数据分析≠Hadoop+NoSQL,不妨先看完善现有技术的10条捷径发表于6小时前| 1327次阅读| 来源FromDev| 2 条评论| 作者FromDev云计算大数据Hadoop数据库摘要:Hadoop让大数据分析走向了大众化,然而它的部署仍需耗费大量的人力和物力。在直奔Hadoop之前,是否已经将现有技术推向极限?这里总结了对Hadoop投资前可以尝试的1转载 2013-07-19 23:25:20 · 850 阅读 · 0 评论 -
MapReduce模板程序
该程序功能:将如下数据13599999999 100861389999999912013944444444 1380013800013722222222 1380013800018800000000 12013722222222 1008618944444444 10086处理为类似:10086 13599999999|13722222222|189444转载 2013-07-19 14:56:54 · 697 阅读 · 0 评论 -
Hadoop Shell命令
调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目转载 2013-06-11 14:02:07 · 684 阅读 · 0 评论 -
Hadoop Streaming
Hadoop streaming是Hadoop的一个工具, 它帮助用户创建和运行一类特殊的map/reduce作业, 这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。例如:$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \-input myInputDirs \转载 2013-06-11 14:20:56 · 731 阅读 · 0 评论 -
Hadoop全分布式配置
Hadoop完全分布式配置环境:CentOs5、hadoop0.20.203、jdk1.6.0_29namenode:centos1(ip:192.168.1.101)datanode:centos2(ip:192.168.1.103)、centos3(ip:192.168.1.104)配置步骤:(1)配置NameNode和DataNode修改每台机器的/etc/hos转载 2013-06-14 14:32:02 · 784 阅读 · 0 评论 -
大数据 VS算法
为什么说研究大数据要先从计算的角度来看?因为我们都清楚计算是计算机科学的本质。我们实际上做计算机的,就是一直在解一个公式G=F(X)。F就是算法或者软件程序,X就是输入和数据,G就是一个程序给定的输入,处理完以后相应的结果。在过去的五十年中是什么状况?一直是以算法为研究基础。七十年代单纯算法研究。到七十年代之后发现了多项时间算法,所以不是所有计算都能解决问题。到八十年代又发现了随机算法,因为能加速转载 2013-06-06 23:06:14 · 1079 阅读 · 0 评论 -
XOR的黄色大象:Erasure Code为Hadoop节省数据恢复带宽
如何在尽可能少的成本下,保证数据安全,或在数据丢失后实现快速恢复?这的确是个不小的挑战。在Azure和Facebook中都使用了Erasure Code,这是一种替代Hadoop三副本和传统Reed Solomon Code的高效算法。【优快云报道】来自南加州大学和Facebook的7名作者共同完成了论文《 XORing Elephants: Novel Erasure Code f转载 2013-07-05 19:28:46 · 1206 阅读 · 0 评论 -
hadoop Partition
1.解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使转载 2013-06-27 16:34:38 · 754 阅读 · 0 评论 -
海量数据去重的五大策略
摘要: 在存储架构中,删除重复数据的一些常用的方法包括:哈希、二进制比较和增量差分。在HadoopSphere这篇文章中,将专注于如何利用MapReduce和HDFS来消除重复的数据。关键词: 海量数据大数据重复数据删除往往是指消除冗余子文件。不同于压缩,重复数据删除对于数据本身并没有改变,只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展转载 2013-06-27 17:19:47 · 2920 阅读 · 0 评论 -
十道海量数据处理面试题与十个方法大总结
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多转载 2013-06-27 17:45:54 · 882 阅读 · 0 评论 -
Hadoop分布式文件系统:架构和设计要点
转一篇关于Hadoop系统架构设计的文章,作者翻译的不错,其英文原文是理解Hadoop的经典文章。原文出处:http://www.blogjava.net/killme2008/archive/2008/06/05/206043.htmlHadoop分布式文件系统:架构和设计要点原文:http://hadoop.apache.org/core/docs/current/hdfs转载 2013-06-28 22:39:31 · 803 阅读 · 0 评论 -
Hadoop进军机器学习:Cloudera收购Myrrix共创“Big Learning”
优快云首页> 云计算Hadoop进军机器学习:Cloudera收购Myrrix共创“Big Learning”发表于7小时前| 1003次阅读| 来源GigaOM| 1 条评论| 作者Derrick HarrisHadoop机器学习Cloudera人工智能云计算摘要:作为人工智能的一个分支机器学习已经实现商业化,并成为大数据的典型使用案例。Ha转载 2013-07-18 23:43:37 · 1291 阅读 · 0 评论 -
读60行代码完成的NoSQL数据库,看数据库打造面临的挑战
读60行代码完成的NoSQL数据库,看数据库打造面临的挑战发表于2013-07-16 14:25| 9460次阅读| 来源Dzone| 21 条评论| 作者Ayende Rahien云计算数据库NoSQL摘要:60行代码确实可以完成一个NoSQL数据库,增加一半的代码或许也可以完成预防重复插入及修改校验。然而数据库不只需要处理并发问题,还有其它需要注意的地方,比转载 2013-07-18 23:44:38 · 818 阅读 · 0 评论 -
White Elephant:开发者必备的Hadoop利器
White Elephant:开发者必备的Hadoop利器发表于1小时前| 259次阅读| 来源LinkedIn| 0 条评论| 作者Sam Shah,Allen Wittenauer,Adam FarisHadoop集群LinkedInSam ShahAllen WittenauerAdam Faris摘要:为了让开发者更好地应对调度、容量规划和计费等转载 2013-07-18 23:45:38 · 990 阅读 · 0 评论 -
hadoop wordcount 源代码
package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org原创 2013-07-19 18:57:23 · 765 阅读 · 0 评论 -
hadoop sort 源代码
/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regard原创 2013-07-19 18:58:25 · 856 阅读 · 0 评论 -
MapReduce模板2
MapReduce模板,方便以后直接引用package jtlyuan.csdn.template; import java.io.IOException; import org.apache.Hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hado转载 2013-07-19 15:15:58 · 774 阅读 · 0 评论 -
基于Eclipse的Hadoop应用开发环境配置
我的开发环境:操作系统centos5.5 一个namenode 两个datanodeHadoop版本:hadoop-0.20.203.0Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.gz(使用3.7的版本总是崩溃,让人郁闷)第一步:先启动hadoop守护进程具体参看:http://www.cnblogs.co转载 2013-07-19 14:55:59 · 710 阅读 · 0 评论