
Hadoop
pianzif
这个作者很懒,什么都没留下…
展开
-
hadoop 2.4.1 安装全过程
1:首先下载hadoop安装介质地址:http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.4.1/原创 2014-07-12 21:30:02 · 5848 阅读 · 0 评论 -
使用Node.js + MongoDB实现一个简单的日志分析系统
在最近的项目中,为了便于分析把项目的日志都存成了JSON格式。之前日志直接存在了文件中,而MongoDB适时闯入了我的视线,于是就把log存进了MongoDB中。log只存起来是没有意义的,最关键的是要从日志中发现业务的趋势、系统的性能漏洞等。之前有一个用Java写的分析模块,运行在Tomcat下。实现相当的重量级,添加一个新指标的流程也比较繁琐,而且由于NFS的原因还导致分析失败。一直想改写,最转载 2014-07-03 08:33:19 · 1162 阅读 · 0 评论 -
Hadoop的核心思想
Hadoop包括两大核心,分布式存储系统和分布式计算系统。1.1.1.1. 分布式存储为什么数据需要存储在分布式的系统中哪,难道单一的计算机存储不了吗,难道现在的几个TB的硬盘装不下这些数据吗?事实上,确实装不下。比如,很多的电信通话记录就存储在很多台服务器的很多硬盘中。那么,要处理这么多数据,必须从一台一台服务器分别读取数据和写入数据,太麻烦了!我们希望有一种文件系统,可以管辖很多服转载 2014-07-03 09:54:09 · 723 阅读 · 0 评论 -
HDFS Datanode数据存储格式分析
首先在Datanode中,每一个block都对应一个数据存储文件,数据存储文件以_blk开头;同时,每一个block还对应一个元数据文件,元数据文件以.meta结尾(注意:meta file的命名格式如下blokcFileName_generationStamp.meta)。首先将一下我理解的几个概念。在HDFS中有storage的概念,每一个节点对应一个storage。我们可以理解为一个Da转载 2014-07-03 10:12:29 · 2388 阅读 · 0 评论 -
腾讯大规模Hadoop集群实践 PDF
摘要:TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据转载 2014-07-03 13:36:19 · 1739 阅读 · 0 评论 -
hadoop 环境搭建-- 链接转载
http://www.linuxidc.com/Linux/2014-06/103504.htmhttp://www.linuxidc.com/Linux/2014-05/102533p2.htm转载 2014-07-03 10:32:55 · 743 阅读 · 0 评论 -
行存储还是列存储f分析
目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的行存储,Lexst是二进制型的行存储。在这里,我不讨论这些软件的技术和优缺点,只围转载 2014-07-25 17:33:21 · 1242 阅读 · 0 评论 -
大数据最具潜力的三大应用领域
今天,大数据似乎成了万灵药,从总统竞选到奥斯卡颁奖、从web安全到灾难预测,正如那句俗语:“当你手里有了锤子,什么都看上去像钉子。”当IT经理成功部署一套Hadoop系统后,任何事看上去都与大数据有关(事实也是如此)。类似的事情在云计算的普及中也出现过,一开始大家认为所有的IT都可以搬到云端,而现实是我们依然需要虚拟化技术和基础设施。对于大数据来说,如果IT经理们初期不能正确选择应用领域,转载 2014-07-25 17:36:37 · 3943 阅读 · 0 评论 -
hadoop 我的总结
1:hadoop 不过是一种框架,一种编程模型!!通过实现他所给定的编程接口(mapperhe)原创 2014-07-05 01:02:42 · 1038 阅读 · 0 评论 -
分布式文件系统Hadoop、GoogleFS、RAID介绍
一、Hadoop Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。 和MYS转载 2014-07-08 10:31:20 · 2347 阅读 · 0 评论 -
关系数据库的末日是否已经来临
最近,大量新的非关系式数据库如雨后春笋般出现在云里云外。这其中所释放出的一个关键信息是:“如果想获得丰富而随需应变的可伸缩性,你需要一个非关系数据库。”如果这是真的,那么这是不是一个迹象,表明曾经强大的关系式数据库终于在它的盔甲上出现了裂缝?关系数据库的日子是不是到头了?该隐退了?在本文中,我们将检视当前这种在特定情况下摆脱关系数据库的趋势,并分析这对于关系数据库的未来意味着什么。转载 2014-07-26 23:24:51 · 1336 阅读 · 0 评论 -
hadoop学习
Hadoop 是Google MapReduce的 一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以 不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器 之间的通讯请求。这样的模式允许程序员可以不需要有什么转载 2014-07-08 09:49:32 · 669 阅读 · 0 评论 -
对SQL说不!NoSQL的数据库技术革命
【51CTO.com快译自7月6日外电头条】NoSQL组织上个月在旧金山的行动让人闻到了数据库革命的味道,好像一个现代IT业版的波士顿倾茶事件正在策划之中。在NoSQL运动的最新一次聚会中,来自世界各地的150人挤满了CBS Interactive的一间会议室。就像当年波士顿的爱国者为反抗英国重税的行动一样,NoSQL的支持者们从各地涌来,分享他们如何推翻缓慢而昂贵的关系数据库的暴转载 2014-07-26 23:28:13 · 836 阅读 · 0 评论 -
Hadoop连载系列之一:Hadoop集群搭建
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,支持密集型分布式应用并以Apache2.0许可协议发布。 Hadoop:以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem)和MapReduce(GoogleMapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构 1.H转载 2014-07-02 17:57:46 · 1146 阅读 · 0 评论 -
Hadoop JobTracker和TaskTracker
JobTracker和TaskTrackerJobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:jobclien转载 2014-07-03 11:36:07 · 2409 阅读 · 0 评论 -
Hadoop连载系列之三:HBase分布式安装
1 概述HBase是基于Hadoop的分布式的、面向列的、可拓展的开源数据库。当需要对大数据进行随机的、实时的读写时使用HBase。属于NoSQL。HBase利用Hadoop/HDFS作为其文件存储系统,利用Hadoop/MapReduce来处理HBase中的海量数据,利用Zookeeper提供分布式协作、分布式同步、配置管理等。HBase的架构:LSM - 解决磁盘随机写问题(顺转载 2014-07-02 18:04:30 · 1024 阅读 · 0 评论 -
深入理解Hadoop集群和网络
云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心、云网络等。文章素材基于作者自己的研究、实验和Cloudera的培训资料。本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。Hadoop里的转载 2014-07-02 10:43:22 · 668 阅读 · 0 评论 -
Hadoop中HDFS工作原理
Hadoop其实并不是一个产品,而是一些独立模块的组合。主要有分布式文件系统HDFS和大型分布式数据处理库MapReduce。由于目前主要用到HDFS,所以这里看一下它的工作原理,以及相应的介绍下配置。什么是HDFS?Hadoop Distributed File System,字面意思,Hadoop分布式文件系统,通俗的讲,就是可以将不同节点的设备用来存储。它分为两个部分:NameNod转载 2014-07-02 16:29:04 · 737 阅读 · 0 评论 -
hadoop 2.4.1 安装之后本地库问题
昨天为了安装,整到晚上12点左右,勉强安装好了,xia原创 2014-07-21 23:59:41 · 3662 阅读 · 0 评论 -
看完阿里云的Hadoop云梯集群设计思路有感
上次去Hadoop大会,听了互联网的专场,对于阿里的云梯这个主题颇有些印象,但是由于对Hadoop纯属概念党,所以听的也不是太懂,今天在网上查了下这个云梯,其实网关于这个上面的还是挺多的,所以特别看了下:背景:阿里的云梯集群是承载了阿里巴巴过去五年来的集团及其子公司(淘宝、天猫、一淘、B2B等)业务的绝大部分业务数据基础平台,经历了近5年数据量的增长,服务器也不断的增长,从300到1000转载 2014-07-02 16:13:58 · 1807 阅读 · 0 评论 -
Hadoop连载系列之四:Hadoop分布式文件系统HDFS
当某个数据集大大小超出单个物理机的存储能力时,我们可以考虑使用集群。管理跨网络机器存储的文件系统叫做分布式文件系统(Distributed FileSystem)。随着多节点的引入,相应的问题也就出现了,例如其中最重要的一个问题就是如何保证在某个节点失败的情况下数据不会丢失。Hadoop中有一个核心子项目HDFS(Hadoop Distributed FileSystem)就是用来管理集群的存转载 2014-07-02 18:07:53 · 761 阅读 · 0 评论 -
Hadoop连载系列之二:Zookeeper分布式安装
1 概述Zookeeper分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。ZooKeeper本身可以以Standalone模式安装运行,不过它的长处在于通过分布式ZooKeeper集群(一个Leader,多个Follower),基于一定的策略来保证Zo转载 2014-07-02 18:00:21 · 687 阅读 · 0 评论 -
Hadoop连载系列之五:Hadoop命令行详解
1 Hadoop fs--------------------------------------------------------------------------------该hadoop子命令集执行的根目录是/home目录,本机上为/user/root-------------------------------------------------------------转载 2014-07-02 18:18:30 · 960 阅读 · 0 评论 -
Hadoop连载系列之六:数据收集分析系统Chukwa
系列几篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建、Zookeeper集群搭建、HBase分布式部署等。当Hadoop集群的数量达到1000+时,集群自身的信息将会大量增加。Apache开发出一个开源的数据收集和分析系统—Chukwa来处理Hadoop集群的数据。Chukwa有几个非常吸引人的特点:它架构清晰,部署简单;收集的数据类型广泛,具有很强的扩展性;与 Ha转载 2014-07-02 18:23:59 · 3549 阅读 · 0 评论 -
hadoop杂记-为什么会有Map-reduce v2 (Yarn)
前言:现在准备计划写一个新的专题,叫做《Hadoop杂记》,里面的文章有深有浅,文章不是按入门-中级-高级的顺序组织的,如果想看看从入门到深入的书,比较推荐《the definitive guide of hadoop》。今天主要想写写关于map-reduce v2(或者叫map-reduce next generation,或者叫YARN)与之前的map-reduce有什么不同。最近在学转载 2014-07-02 23:55:33 · 791 阅读 · 0 评论 -
HDFS的副本存放策略
HDFS作为Hadoop中的一个分布式文件系统,而且是专门为它的MapReduce设计,所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外,还必须为MapReduce提供高效的读写性能,那么HDFS是如何做到这些的呢?首先,HDFS将每一个文件的数据进行分块存储,同时每一个数据块又保存有多个副本,这些数据块副本分布在不同的机器节点上,这种数据分块存储+副本的策略是HDFS保证可靠性和性能的转载 2014-07-03 10:18:24 · 5202 阅读 · 0 评论 -
Hadoop集群(第8期)_HDFS初探之旅
相关系列目录:Hadoop集群安装配置系列(目录)http://www.linuxidc.com/Linux/2012-12/76696.htm1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它转载 2014-07-03 10:23:04 · 620 阅读 · 0 评论 -
大道唯简----存储架构演变之剖析
随着云计算和大数据的发展,传统的基于主机的存储架构已逐渐向网络化、虚拟化、海量云存储发展,从分散走向集中,存储的性能、效率和扩展性、灵活性被企业普遍关注。从更高层次看,存储不仅需要提供数据的管理、数据复制、快照、镜像、迁移等例行性事物,更要能处理数据的灾难恢复、数据一致性、虚拟化融合、弹性计算与资源扩展等工作,这些都依赖于良好的存储架构来满足。 结合企业的IT建设,我们可以把存储架转载 2014-07-10 12:53:24 · 2723 阅读 · 0 评论