
hadoop
文章平均质量分 88
帅气小马哥
互联网,大数据行业
展开
-
hadoop-2.5.0,hbase,hive,pig,sqoop,zookeeper 集群安装
1. 准备工作 软件准备: 1) Hadoop: hadoop-2.5.0.tar.gz 2) Jdk: jdk-7u71-linux-x64.tar.gz 3) Hive:apache-hive-0.13.1-bin.tar.gz 4) Hbase:hbase-0.98.8-hadoop2-bin.tar.gz 5)原创 2014-12-06 19:25:28 · 3462 阅读 · 0 评论 -
flume 收集日志到HDFS
作者同类文章X 转自:http://www.aboutyun.com/thread-7949-1-1.html 问题导读: 1.什么是flume? 2.如何安装flume? 3.flume的配置文件与其它软件有什么不同? 一、认识flume 1.flume是什么? 这里简单介绍一下,它是Cloudera的一个产品 2.flume是干什么的? 收集日志的 3.flume如何转载 2015-11-30 14:14:16 · 1150 阅读 · 0 评论 -
oozie-4.1.0 安装
Oozie安装 一.准备 默认hadoop,maven,mysql已经安装,我的hadoop是2.5.0 下载oozie安装包:oozie-4.1.0.tar.gz http://mirror.bit.edu.cn/apache/oozie/ 下载ext-2.2.zip http://oozie.apache.org/docs/4.0.1/DG_QuickStart.ht原创 2015-02-28 11:10:37 · 2724 阅读 · 0 评论 -
hadoop 2.x 编译打包
1. 需要编译打包的代码如下: package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path;原创 2015-02-15 11:59:03 · 791 阅读 · 0 评论 -
Hbase java API 调用详解
Hbase java API 调用 一. hbase的安装 参考:http://blog.youkuaiyun.com/mapengbo521521/article/details/41777721 二.hbase访问方式 Native java api:最常规最高效的访问方式。 Hbase shell:hbase的命令行工具,最简单的接口,适合管理员使用 Thrift gateway:利用t原创 2015-02-23 18:23:30 · 1618 阅读 · 0 评论 -
Hbase Mapreduce编程
Hbase Mapreduce编程 hadoop,hbase安装参考:http://blog.youkuaiyun.com/mapengbo521521/article/details/41777721 hbase表创建数据插入参考:http://blog.youkuaiyun.com/mapengbo521521/article/details/43917119 hbase mapreduce参考:http://原创 2015-02-24 12:32:14 · 1175 阅读 · 1 评论 -
hive jdbc 调用
HIVE学习总结 Hive只需要装载一台机器上,可以通过webui,console,thrift接口访问(jdbc,odbc),仅适合离线数据分析,降低数据分析成本(不用编写mapreduce)。 Hive优势 1. 简单易上手,类sql的hql、 2. 有大数据集的计算和扩展能力,mr作为计算引擎,hdfs作为存储系统 3. 统一的原创 2015-02-24 15:04:47 · 1175 阅读 · 0 评论 -
Hadoop性能调优
Hadoop性能调优 Hadoop在处理任务时性能是否足够好,这里的性能主要包括时间和空间两个指标。调优一般要注意以下几个方面: 1. 输入文件尽可能的大 HDFS的默认块文件的大小为64M,假如有1000,个文件,每个文件的大小都是2.3m,那么存储这些文件需要占用1000个块,那么一共会占用64000M大小的空间,如果将这些文件合并大小为2.2G,只有36个块,占原创 2015-02-16 12:48:12 · 864 阅读 · 0 评论 -
日志收集分析系统架构
日志收集分析系统架构 一.部署架构 日志收集系统一般包括如图所示三层。Web服务器层,日志收集层,日志存储层。Web服务器层是日志的来源,一般部署web应用供用户访问,产生日志,该节点上一般需要部署日志收集程序的agent。日志收集层手机web服务器产生的日志传输给日志存储层,存储层一般使用分布式文件系统HDFS,日志可以存储在hdfs上或者hbase上。 以scribe作原创 2015-02-23 16:09:35 · 1934 阅读 · 0 评论 -
Linux eclipse安装hadoop插件
准备:eclipse安装包:eclipse-SDK-4.3.1-linux-gtk-x86_64.tar.gz hadoop插件:hadoop-eclipse-plugin-2.5.0.jar (可以到网上下载,也可自己编译) cp eclipse-SDK-4.3.1-linux-gtk-x86_64.tar.gz /home/hadoop/tools tar原创 2014-12-06 19:35:49 · 1164 阅读 · 0 评论 -
Mahout安装与配置
Mahout安装与配置 1:环境: 需要安装hadoop 我安装的是Hadoop2.5 Hadoop安装参考:http://blog.youkuaiyun.com/mapengbo521521/article/details/41777721 下载地址: http://mirrors.cnnic.cn/apache/mahout/0.11.1/apache-mahout-distribution-原创 2015-12-02 15:24:23 · 649 阅读 · 0 评论