
Hadoop
文章平均质量分 88
高寒竹林
这个作者很懒,什么都没留下…
展开
-
Mac环境下Hadoop与Eclipse的集成
在这一节中我们来说一下应该怎样把Hadoop集成到Eclipse中的,在官方中提供的有相关插件来集成eclipse的,但都是对Hadoop1.x的集成,下面我们进行自己适合版本的插件的生成。如图:为了能够自定义插件,我们需要hadoop2.x的插件的源码包,hadoop2x-eclipse-plugin-master.zip这个源码包在网上不太容易找到,在这里提供下载。1、解压下载后的原创 2015-06-19 23:54:16 · 2079 阅读 · 0 评论 -
Linux下Hadoop集群的搭建(2)—单机模式
上一篇我们学习的是hadoop源码编译,这一篇我们学习如何在单机环境下安装运行Hadoop.原创 2015-12-20 00:05:42 · 851 阅读 · 0 评论 -
Linux下Hadoop集群的搭建(1)—重新编译Hadoop
随着互联网大数据的兴起,Hadoop这个专门用于大数据处理的框架也越来越被人重视起来,可以说Hadoop这个框架是现阶段进行大数据处理的标配,作为一个冲锋于互联网的先锋军,学习一下Hadoop这个框架都是有必要的。当然学习也是要一步一步的,在学习Hadoop集群搭建之前我们先学习一下在单机环境下的Hadoop的搭建,这一节我们要学习的是Linux下Hadoop单机环境的搭建。原创 2015-12-19 21:03:09 · 1620 阅读 · 0 评论 -
Linux下Shell编程实现基于Hadoop的ETL(流程篇)
conf/flow.sh ../conf/import.xml ../conf/hive.xml ../conf/export.xmlbin/flow.sh#! /bin/bash#get the environmentif [ -f ~/.bashrc ];then . ~/.bashrcfi#file exitif [ -z $1 ];thenech原创 2016-04-13 16:21:44 · 1756 阅读 · 0 评论 -
Linux下Shell编程实现基于Hadoop的ETL(导出篇)
conf/export.xml think_statistics bin/export.sh#!/bin/bash#get the environmentif [ -f ~/.bashrc ];then . ~/.bashrcfi#file exitif [ -z $1 ];thenecho 'USAGE:COMMAND FILENAME'exit 0原创 2016-04-13 16:19:57 · 1077 阅读 · 0 评论 -
Linux下Shell编程实现基于Hadoop的ETL(分析篇)
conf/hive.xml create table if not exists think_statistics(date_type_name string,date_name string,type int,type_name string,count int) row format delimited fields terminated by '\\t' lines termi原创 2016-04-13 16:06:37 · 2123 阅读 · 0 评论 -
Linux下Shell编程实现基于Hadoop的ETL(Sqoop封装篇)
conf/sqoop.xml jdbc:mysql://master:3306/db_cda root 123 --> 1 '\\\\N' '\\\\N' true true true jdbc:mysql://master:330原创 2016-04-13 15:56:46 · 2579 阅读 · 0 评论 -
Linux下Shell编程实现基于Hadoop的ETL(导入篇)
在这里我们直接给出代码,然后对代码解析分析来学习:conf/import.xml think_task think_task_child think_user_task think_user_task think_task bin/import.sh#!/bin/bash#get the environmentif [ -f ~/.bash原创 2016-04-13 15:38:34 · 1271 阅读 · 0 评论 -
Linux下Shell编程实现基于Hadoop的ETL(分析篇)
本人自学Hadoop也有一段时间了,由于最近工作不太忙,想利用业余空闲时间来实现一下基于Hadoop的ETL,不过本人不太清楚别人是怎么实现的,而且网上资料有限,可能会是一个坑,不过感觉和大家分享下,还是有些帮助的,也借此做下笔记。现在阶段的大数据的ETL主要分为三个阶段:抽取、转换、加载,如图这三个阶段具体到实际项目中也就是数据的导入、数据的分析以及数据的导出。数据的导入:一原创 2016-04-13 14:03:42 · 1424 阅读 · 0 评论 -
Mac环境下搭建Hadoop开发框架
这几天闲来无事,作为一个资深的技术宅,无聊之余准备学习一下Hadoop这个大数据的框架。由于手头只有一台Mac电脑,所以只有在它上面搭建了,但是网上都是一些Window或者Linux的搭建教程,无法参考,就自己摸索着试了一下,之中的曲折不必多说,下面我分享下我的搭建过程,供大家参考。1、下载软件 首先,我们需要到官方下载hadoop安装包,我下载的是hadoop-2.2.0,这个版本是比较新的原创 2015-06-19 22:37:13 · 7904 阅读 · 0 评论 -
Linux下Hadoop集群的搭建(3)—集群模式
上一篇我们介绍了单机模式搭建Hadoop的环境,很简单,这一篇我们来介绍集群模式的Hadoop的搭建,有很多部分是和部署单机是一样的,在这一篇就会省略带过。搭建环境:在这里我们使用的是本地局域网内的服务器,分别是2G内存、50G硬盘、CentOS6.0的环境172.16.139.128 Master172.16.139.129 Slave1172.16.139.130 Slave2原创 2015-12-20 23:18:05 · 661 阅读 · 0 评论 -
搭建Hive On Spark
随着Hadoop的深入学习,渐渐用到了Hadoop相关的家族成员Hive、Spark、Sqoop等,其中Hive主要是为了使我们在进行大数据开发的时候更加快捷高效,而且又因为它的类SQL的特性使我们很容易上手;而Spark这个工具是极为高效的大数据的处理引擎,据说是可以达到Hadoop的MapReduce处理速度的几十倍,但是由于它不像Hive使用类SQL的语法,因此学习的成本要高很多,因此在Ha原创 2016-05-26 10:26:59 · 1008 阅读 · 0 评论