
Hadoop
文章平均质量分 68
wbj0110
这个作者很懒,什么都没留下…
展开
-
Hadoop Hbase Tutorial
This tutorial with quickly teach you how to use HBase, a column-oriented tool that sits on top of Hadoop, it works best when you have large tables and are accessing your Big Data randomly and in rea...原创 2013-11-06 09:15:37 · 119 阅读 · 0 评论 -
hadoop分布式集群
hadoop的基础知识我就不在这里介绍了,任何有关hadoop书籍中都有非常详细的原理以及其开源框架(HDFS、Mapreduce、combiner、Partitioner等)、子项目(Hive、Hbase等)的介绍以及讲解,而这些方面的知识也不是在短期内能够了解和深入的,有一个循序渐进的过程,我这里只是针对其集群结合介绍其原理介绍,让大家更快速的对hadoop有一个了解,但也请大家意...原创 2013-11-06 09:17:53 · 82 阅读 · 0 评论 -
java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path i
java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: hdfs://localhost:49000.tmp at org.apache.hadoop.fs.Path.initialize(Path.java:148) at org....原创 2013-11-06 09:28:29 · 744 阅读 · 0 评论 -
Sqoop – HADOOP和RDBMS数据交换
Sqoop1:wget http://mirrors.ustc.edu.cn/apache/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-1.0.0.tar.gztar -xzvf sqoop-1.4.4.bin__hadoop-1.0.0.tar.gzmv sqoop-1.4.4.bin__hadoop-1.0.0 sqoop-1.4.4cd...原创 2013-11-07 09:30:22 · 121 阅读 · 0 评论 -
Hadoop分布式文件系统:架构和设计要点(转)
一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在...原创 2013-11-08 09:29:37 · 95 阅读 · 0 评论 -
Using the Aggregate package in Java is explained
http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/lib/aggregate/package-summary.html原创 2013-11-11 11:09:05 · 120 阅读 · 0 评论 -
Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询
1、搭建环境 新建JAVA项目,添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 001import java.io.IOExce...原创 2013-11-29 09:19:43 · 99 阅读 · 0 评论 -
Nutch相关框架安装使用最佳指南(转)
Chinese installing and using instruction - The best guidance in installing and using Nutch in China 国内首套免费的《Nutch相关框架视频教程》 土豆在线观看地址:http://www.tudou.com/home/item_u106249539s0p1.html 超清原版下...原创 2013-12-02 09:34:26 · 207 阅读 · 0 评论 -
HBase/Hadoop学习笔记 (转)
HBase/Hadoop学习笔记 学习目标: 至少掌握五点: 1. 深入理解HTable,掌握如何结合业务涉及高性能的HTable。 2. 掌握与HBase的交互,通过HBase Shell命令及Java API进行数据的增删改查。 3. 掌握如何用MapReduce分析HBase里的数据 ...原创 2013-12-03 09:41:40 · 225 阅读 · 0 评论 -
GitHub项目Storm-HBase介绍
Storm-HBase,该项目是Twitter Storm和Apache HBase的结合,它使用HBase cluster作为Storm的Spout数据源,目前只是初步实现,后续会进一步完善。HBaseSpout根据时间戳范围[start_timestamp, stop_timestamp],持续不间断地从HBase cluster读取流数据: 如果start_timestamp = ...原创 2013-12-06 10:17:36 · 95 阅读 · 0 评论 -
FACEBOOK架构
http://www.jdon.com/artichect/facebook.html原创 2013-12-16 10:00:44 · 114 阅读 · 0 评论 -
用MRUnit做单元测试
http://www.taobaotest.com/blogs/1681原创 2013-12-16 10:01:35 · 101 阅读 · 0 评论 -
运行MapReduce作业做集成测试
准备工作 以windows环境为例: 安装jdk,设置环境变量JAVA_HOME为jdk安装目录 安装Cygwin,安装时注意选择安装软件包openssh - Net 类,安装完成将cygwin/bin加入环境变量path。 确认ssh。打开cygwin命令行,分别执行以下命令 安装sshd:$ ssh-host-config 启动sshd服务:$ net s...原创 2013-12-17 09:46:31 · 123 阅读 · 0 评论 -
Hadoop安装
4.1 系统要求Linux, 线上环境多为CentOS, 这里使用Fedora作为测试系统4.2 安装准备4.2.1 创建hadoop用户使用专有用户进行相关操作 # 创建hadoop用户组groupadd hadoop# 创建hadoop用户useradd hadoop# 设置密码passwd h...原创 2014-05-18 13:21:40 · 137 阅读 · 0 评论 -
Hadoop维护管理
1.处理hadoop的datanode宕机 cd path/to/hadoop 走到hadoop的bin目录 ./hadoop-daemon.sh start datanode ./hadoop-daemon.sh start tasktracker 2.处理hadoop的na...原创 2014-05-22 18:56:36 · 164 阅读 · 0 评论 -
Hadoop平台优化综述(一)
1. 概述 随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoop采用的是mas...原创 2014-05-22 18:57:15 · 92 阅读 · 0 评论 -
Hadoop日常运维
1、Hadoop节点状态报告bin/hadoop dfsadmin -report2、Hadoop文件系统健康检查bin/hadoop fsck /3、列出文件目录bin/hadoop fs -ls /4、显示文件大小bin/hadoop fs -du /bin/hadoop fs -dus /5、复制文件到本地bin/hadoop fs -get /1.txt .6、复制...原创 2014-05-23 09:26:14 · 418 阅读 · 0 评论 -
hadoop增加删除节点
添加节点1.修改host和普通的datanode一样。添加namenode的ip2.修改namenode的配置文件conf/slaves添加新增节点的ip或host3.在新节点的机器上,启动服务帮助显示代码12[root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode...原创 2014-05-23 09:26:43 · 100 阅读 · 0 评论 -
hadoop收集的文章
Hadoop入门 单节点的安装与测试1 下载hadoop的相应版本2 设置conf目录下的hadoop-env.sh文件,最低要求是要配置JAVA_HOME这个环境变量3 设置conf目录下的hadoop-site.xml配置文件,<configuration><property><name>fs.default.name</name><v...原创 2014-05-23 09:27:08 · 129 阅读 · 0 评论 -
Hadoop、HBase配置Ganglia指南(metrics1)
Server端:yum install rrdtool ganglia ganglia-gmetad ganglia-gmond ganglia-web httpd phpClient端:yum install ganglia-gmond创建RRD目录mkdir -p /var/lib/ganglia/rrdschown ganglia:ganglia /var/lib/...原创 2014-05-24 09:32:32 · 104 阅读 · 0 评论 -
通过cloudera-manager来安装hadoop
通过cloudera-manager来安装hadoop本人笨,装的过程碰了不少东西,其他网站转载的文章也没具体写清楚,以下我实战了下总结下来。1. ssh登陆要安装管理界面的机器,确定关闭防火墙和selinux,然后安装cloudera-manager-installer.bin2. 修改host,并复制到所有节点 vim /etc/hosts...原创 2014-05-25 09:00:01 · 172 阅读 · 0 评论 -
HDFS HA 部署安装
1. HDFS 2.0 基本概念 相比于 Hadoop 1.0,Hadoop 2.0 中的 HDFS 增加了两个重大特性,HA 和 Federaion。HA 即为 High Availability,用于解决 NameNode 单点故障问题,该特性通过热备的方式为主 NameNode 提供一个备用者,一旦主 NameNode 出现故障,可以迅速切换至备 NameNode, 从而实现不间...原创 2014-06-01 10:38:10 · 188 阅读 · 0 评论 -
安装CDH5 hadoop2.3.0 NodeManager 没有启动
今天在安装hadoop后,启动start-yarn.sh后,nodemanager起不起来,后来查看DN节点的日志,报了以下一个错误: FATAL org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManager java.lang.IllegalArgumentException: T...原创 2014-06-01 10:38:57 · 114 阅读 · 0 评论 -
CDH5伪分布式环境搭建
说明:本文描述的是基于Windows+虚拟机+CentOS的Hadoop+HBase的开发环境搭建过程,使用的Hadoop版本是CDH5(Cloudera Distribution including Apache Hadoop,CDH),旨在说明HADOOP的伪分布式环境搭建关键步骤。CDH5与Hadoop的关系,Hadoop、Hbase、Zookeeper之间的关系,及文中涉及的...原创 2014-06-01 12:00:07 · 275 阅读 · 0 评论 -
使用yum安装CDH Hadoop集群
Update:2014.05.20 修改cdh4为cdh5进行安装。集群规划为3个节点,每个节点的ip、主机名和部署的组件分配如下: 192.168.56.121 cdh1 NameNode、Hive、ResourceManager、HBase 192.168.56.122 cdh2 DataNode、SSNam...原创 2014-06-04 13:34:25 · 164 阅读 · 0 评论 -
Cloudera Manager 和 CDH 4 终极安
系统环境操作系统:CentOS 6.5Cloudera Manager 版本:4.8.1CDH版本:4.5.0各机器准备工作: yum -y groupinstall "Development tools" yum -y install wget Cloudera-manager压缩包地址: http://archive.cloudera.co...原创 2014-06-04 13:34:47 · 198 阅读 · 0 评论 -
CENTOS 6.0 mini系统编译安装mysql 5.5.16过程
http://jingyan.baidu.com/article/11c17a2c4a9147f446e39d9b.html 下面的安装过程是www.centos.bz博主 朱海茂的文章,在此一并谢过,看到你的这篇文章我编译成功了,谢谢。根据我的情况进行了简单的修改,请见谅。我的是centos 6 的系统,使用mini的安装模式,安装完成后的第一件事要配置好网络,这...原创 2014-06-05 10:57:31 · 140 阅读 · 0 评论 -
如何“打败”CAP定理(转)
CAP定理指出,一个数据库不可能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition-Tolerance)。 一致性(Consistency)是指执行了一次成功的写操作之后,未来的读操作一定可以读到这个写入的值。可用性(Availability)是 指系统总是可读可写的。Yammer的Coda Hale和Cloudera的Henr...原创 2014-01-17 10:40:05 · 133 阅读 · 0 评论 -
HTools:开源免费的Hadoop集群监控工具
HTools是一款功能强大、开源免费的Hadoop集群监控工具,拥有人性化的用户体验、智能化的故障提醒。 HTools官网:http://www.htools.co 下载地址:http://www.htools.co/down/ 功能介绍: 向导式操作流程免客户端部署实时监控短信、邮件故障告警节点故障智能诊断及修复热插拔节点、扩展节点网内智能寻点...原创 2014-01-20 09:55:19 · 2540 阅读 · 0 评论 -
hadoop开发方式总结及操作指导
本篇亦为学习hadoop----java零基础学习线路指导(3)第三篇,想学习hadoop,没有Java基础,可以查看下面两节内容:学习hadoop----java零基础学习线路指导视频(1)学习hadoop---Java初级快读入门指导(2)本文为操作指导1.如何引用外部包?2.使用插件开发端口如何设置?如果你已经比较熟悉了,可以思考:1.hadoop脱离集群开发,加入外部包的作用是什么?2...原创 2014-06-07 10:23:41 · 181 阅读 · 0 评论 -
使用yum安装CDH5
环境三台云主机 (node209, node452, node440)OS:CentOS 6.5 64位JDK:Oracle JDK 1.7.0_45安装ZooKeeper(集群模式)Node Type:node229, node452, node4401.所有节点安装zookeeper, zookeeper-serveryum install -y zookeeper zookeeper-s...原创 2014-06-07 10:24:12 · 96 阅读 · 0 评论 -
Hadoop 2.2 YARN分布式集群搭建配置流程
搭建环境准备:JDK1.6,SSH免密码通信系统:CentOS 6.3集群配置:NameNode和ResourceManager在一台服务器上,三个数据节点搭建用户:YARNHadoop2.2下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/步骤一:上传Hadoop 2.2 并解压到/export/yarn/ha...原创 2014-06-07 10:24:31 · 85 阅读 · 0 评论 -
将Spark部署到Hadoop 2.2.0上
本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。需要注意两点:(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在 Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功...原创 2014-06-08 23:08:29 · 117 阅读 · 0 评论 -
大数据入门:各种大数据技术介绍
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。我们可以带着下面问题来阅读本文章:1.hadoop都包含什么技术2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有...原创 2014-06-08 23:09:40 · 156 阅读 · 0 评论 -
Configuring High Availability for ResourceManager (MRv2/YARN)
This guide provides an overview of YARN ResourceManager High Availability (RM HA), and explains how to configure and use this feature.The ResourceManager (RM) is responsible for tracking the res...原创 2014-06-09 09:11:49 · 176 阅读 · 0 评论 -
Installing and Configuring a MySQL Database
Installing and Configuring a MySQL DatabaseYou can use MySQL databases to store information for Cloudera Manager. Cloudera Manager monitoring services require databases to store information, so ...原创 2014-06-09 09:13:16 · 239 阅读 · 0 评论 -
Deploying HDFS on a Cluster
Important:For instructions for configuring High Availability (HA) for the NameNode, see the CDH 5 High Availability Guide.Proceed as follows to deploy HDFS on a cluster. Do this f...原创 2014-06-09 09:13:47 · 171 阅读 · 0 评论 -
STS或eclipse安装SVN插件
安装sts--SVN插件 简介:sts是与eclipse类似的Java IDE开发工具(不了解的百度)1、sts菜单栏 help->install New Software 依据大家的版本选择:http://subclipse.tigris.org/update 比如:http://subclipse.tigris.org/update_...原创 2014-06-13 15:51:54 · 218 阅读 · 0 评论 -
Centos 6.4 CDH5-hadoop2.3.0 重新编译
1.在编译之前我们可能需要安装的工具如下:yum install lzo-devel zlib-devel gcc autoconf automake libtool ncurses-devel openssl-deve gcc-g++2.需要 安装 ant 、 Maven、Findbugs 和protobuf2.1 安装 maven建议使用版本 Maven 3.0.5 ,...原创 2014-06-13 15:53:48 · 325 阅读 · 0 评论 -
Cloudera CDH5 RM HA功能验证
简介: 最新的Cloudera CDH5.0.0 beta版本已经支撑RM的HA, 笔者为此简单验证了RM HA的功能. 后续将持续解析其HA的道理,以及其与社区RM HA的差别. 集群属下与RM failover功能性验证 硬件筹办 四台机械, bj1, bj3, bj4, bj5 筹办好响应的景象(包含ssh互通, java景象). 角色申明, b...原创 2014-06-13 15:54:48 · 148 阅读 · 0 评论