
Hadoop
文章平均质量分 65
hunter127
这个作者很懒,什么都没留下…
展开
-
Partioner解析
Partioner可以说是MapReduce最神秘的核心设计之一,我们知道map函数处理完成后通过Context对象的write(K,V)函数输出结果,但是这个结果并不是直接写入内存缓冲区,而是有一个Collector对象进行收集。这里可以对map中的context.write(K,V)进一步分析,通过分析可以知道该write()方法是由TaskInputOutputContext对象调用了out原创 2015-11-07 16:50:31 · 838 阅读 · 0 评论 -
Hadoop集群迁移合并
1.安装maven,protobuf,java并配置环境变量export JAVA_HOME=/usr/local/javaexport PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport M2_HOME=/usr/local/maven原创 2017-06-02 19:38:47 · 673 阅读 · 0 评论 -
Mapreduce理解
1.你懂的map:映射reduce:规约原创 2016-09-28 19:20:10 · 215 阅读 · 0 评论 -
is running beyond virtual memory limits
Current usage: 314.6 MB of 2.9 GB physical memory used; 8.7 GB of 6.2 GB virtual memory used. Killing container.http://stackoverflow.com/questions/21005643/container-is-running-beyond-memory-limits原创 2016-03-24 21:46:07 · 7157 阅读 · 0 评论 -
Hadoop平台架构--硬件篇
还记得刚接触Hadoop的时候,还是1.x版本,硬是在自己的4GB内存上面弄了3个虚拟机学习,条件有些艰苦,Hadoop测试集群搭建不需要太多考虑,随着毕业开始进入企业,在企业中实践Hadoop,特别是一定规模的集群,逐渐涉及到硬件资源,网络规划,操作系统,软件栈等一系列问题!对于一个没有经验的小白来说,还是比较复杂的,还好公司有linux大牛配合上我从各种技术网站博客吸收的微薄知识,从0转载 2016-01-29 10:55:20 · 662 阅读 · 0 评论 -
在云上搭建大规模实时数据流处理系统
该文章来自云角技术博客,原文发布于阿里云云栖社区。 (原文链接:http://yq.aliyun.com/articles/51?spm=5176.team2.teamshow1.13.bAr6u3)在大数据时代,数据规模变得越来越大。由于数据的增长速度和非结构化的特性,常用的软硬件工具已无法在用户可容忍的时间内对数据进行采集、管理和处理。本文主要介绍如何在阿里云上使用Kafka和转载 2016-01-29 10:44:32 · 427 阅读 · 0 评论 -
hadoop 兼容问题
hadoop2.6与hbase1.1.1 是不兼容的。原创 2015-12-23 11:58:57 · 491 阅读 · 0 评论 -
puppet
Puppet是一个C/S架构的配置管理工具,在中央服务器上安装puppet-server软件包(被称作Puppetmaster)。在需要管理的目标主机上安装puppet客户端软件(被称作PuppetClient)。当客户端连接上Puppetmaster后,定义在Puppetmaster上的配置文件会被编译,然后在客户端上运行。每个客户端默认每半个小时和服务器进行一次通信,确认配置信息的更新情况。如原创 2015-12-18 13:39:33 · 293 阅读 · 0 评论 -
Hadoop管理员的十个最佳实践
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hadoop使用转载 2015-12-18 13:27:58 · 852 阅读 · 0 评论 -
关于mr-jobhistory-daemon.sh的一些了解
这个脚本的服务是实现web查看作业的历史运行情况。有些情况下,作业运行完了,在web端就无法查看运行情况。可以通过开启这个的守护进程来达到查看历史任务。启动命令为 mr-jobhistory-daemon.sh start historyserver下面来看一下该脚本的内容#!/usr/bin/env bash# Licensed to the Apache原创 2015-12-18 11:32:39 · 4201 阅读 · 0 评论 -
Hadoop前篇
为什么要使用Hadoop,Spark,Storm,这类大数据工具?Hadoop是什么?非关系型数据库的作用?Hbase,Cassandra,mongoDB,Redis原创 2015-10-25 11:24:06 · 296 阅读 · 0 评论 -
HDFS简介
HDFS是hadoop的两大核心之一,分布式存储为分布式数据处理提供了基础,理解HDFS的优点与缺点。可以更好的将其运用到具体场景中,以及运维中快速定位问题。HDFS的定义: 易于扩展的分布式文件系统。 运行在大量普通的廉价商业机器上,提供容错机制。 为大量用户提供性能不错的文件存储服务。优点: 高容错性:数据自原创 2015-10-24 18:31:24 · 495 阅读 · 0 评论 -
Hadoop与Spark的安装
Hadoop +spark安装 由于hadoop的mapreduce离线处理的高延迟性,并不适合所有`数据处理的场景,所以越来越多的数据处理框架应运而生,spark与storm的是基于内存计算的框架,它们的低延迟性很好的弥补了mapreduce的不足,为了满足需求,很多框架都可以共同布置在同一资源管理器上,从而处理各种需求,最为典型的资源管理器有mesos与hadoop的yarn,下面原创 2015-11-07 16:44:01 · 512 阅读 · 0 评论 -
hadoop集群之间数据传输
hadoop fs -cp hdfs://10.254.20.126:9000/datalog/stats/gz/2017/03 hdfs://10.254.32.18:9000/user/huiyuanHuang/3test/ 两集群之间要求可以通信原创 2017-05-26 12:06:34 · 1790 阅读 · 0 评论