
Hadoop
文章平均质量分 86
layne_liang
这个作者很懒,什么都没留下…
展开
-
ZooKeeper+Hadoop2.6.0的ResourceManager HA搭建
以下为我的操作记录,还未整理格式hqvm-L118 192.168.1.118 jdk、hadoop NameNode、DFSZKFailoverController(zkfc)hqvm-L138 192.168.1.138 jdk、hadoop、zookeeper NameN原创 2015-07-22 14:30:44 · 744 阅读 · 0 评论 -
hive 数据导入的四种方法
问题导读1.从本地文件系统中通过什么命令可导入数据到Hive表?2.什么是动态分区插入?3.该如何实现动态分区插入?扩展:这里可以和Hive中的三种不同的数据导出方式介绍进行对比?Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中转载 2015-08-17 09:38:47 · 809 阅读 · 0 评论 -
hive 使用udf函数实现数据导入到mysql
利用hive内置的hive-contrib 来实现udf导入mysql,同时还需要mysql驱动包例子:add jar /usr/local/hive-0.13.1b/hive-contrib-0.13.1.jar;add jar /usr/local/hive-0.13.1b/mysql-connector-java-5.1.32-bin.jar;create tem原创 2015-08-17 09:54:04 · 1294 阅读 · 0 评论 -
利用sqoop将hive数据导入导出数据到mysql
利用sqoop将hive数据导入导出数据到mysql运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题:sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sq原创 2015-07-24 15:46:13 · 1123 阅读 · 0 评论 -
sqoop的安装与使用
sqoop的安装与使用阅读目录1、列出mysql数据库中的所有数据库2、连接mysql并列出数据库中的表3、将关系型数据的表结构复制到hive中4、将数据从关系数据库导入文件到hive表中5、将hive中的表数据导入到mysql数据库表中6、将数据从关系数据库导入文件到hive表中,--query 语句使用7、将数据从关系数据库导入文件到hive表中,--columns原创 2015-07-24 15:47:57 · 454 阅读 · 0 评论 -
hadoop2.x常用端口、定义方法及默认端口、hadoop1.X端口对比(转)
hadoop2.x常用端口、定义方法及默认端口、hadoop1.X端口对比问题导读:1.DataNode的http服务的端口、ipc服务的端口分别是哪个?2.NameNode的http服务的端口、ipc服务的端口分别是哪个?3.journalnode的http服务的端口、ipc服务的端口分别是哪个?4.ResourceManager的http原创 2015-07-24 15:53:10 · 692 阅读 · 0 评论 -
国内、国外Hadoop的应用现状(转)
国内、国外Hadoop的应用现状本文节选自《Hadoop核心技术》一书。翟周伟著,由机械工业出版社华章公司,2015年4月出版。 写在前面:本文给出了国内、国外Hadoop的应用现状,很多数据是比较旧的了,现在也许已经发生了重大变化(比如阿里已经转而使用自己内部的阿里云平台),但对于那些正在选型的技术人员而言,仍具有较高的参考价值。 摘要:Hadoop是一个开源的高效云计算基础转载 2015-07-24 15:54:59 · 4318 阅读 · 0 评论 -
Hadoop中MapReduce多种join实现实例分析
【博文推荐】Hadoop中MapReduce多种join实现实例分析本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析,并且根据我在实际开发过程中遇到的实际例子来进行进一步的说明。AD:51CTO移动APP安全沙龙!马上要爆满,手慢没座位!本博文出自51CTO博客 zengzhaozheng博原创 2015-07-24 15:57:35 · 508 阅读 · 0 评论 -
MapReduce的模式、算法和用例
MapReduce的模式、算法和用例转自:http://blog.jobbole.com/33967/英文原文:MapReduce Patterns, Algorithms, and Use Cases,编译:juliashine在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了原创 2015-07-24 16:01:25 · 433 阅读 · 0 评论 -
Hive自定义UDAF详解
Hive自定义UDAF详解 遇到一个Hive需求:有A、B、C三列,按A列进行聚合,求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成,但是比较繁琐,会解析成几个MR进行执行,如果自定义UDAF便可只利用一个MR完成任务。 所用Hive为0.13.1版本。UDAF有两种,第一种是比较简单的形式转载 2015-08-17 09:42:44 · 1403 阅读 · 0 评论 -
Hadoop2源码分析-RPC机制初识
1.概述 上一篇博客,讲述Hadoop V2的序列化机制,这为我们学习Hadoop V2的RPC机制奠定了基础。RPC的内容涵盖的信息有点多,包含Hadoop的序列化机制,RPC,代理,NIO等。若对Hadoop序列化不了解的同学,可以参考《Hadoop2源码分析-序列化篇》。今天这篇博客为大家介绍的内容目录如下:RPC概述第三方RPCHadoop V2的RPC简述转载 2015-07-22 14:54:06 · 385 阅读 · 0 评论 -
flume-ng+Kafka+Storm+HDFS 实时系统搭建
一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有写这篇文章@晨色星空J2EE也给了我很大帮助,这里也谢谢@晨色星空J2EE之前在弄这个的时候,跟转载 2015-07-22 15:41:10 · 586 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍网站日志分析项目案例(一)项目介绍:当前页面网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/4464349.htm转载 2015-07-22 14:48:17 · 2279 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:当前页面一转载 2015-07-22 14:42:38 · 1115 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:当前页面网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/4464349.h转载 2015-07-22 14:45:29 · 2840 阅读 · 0 评论 -
hadoop2.2.0集群的HA高可靠的最简单配置
hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的表现,如图1所示。hadoop2就解决了这个问题。 图1hadoop2.2.0中HDFS的高可靠指的是可以同时启动2个NameNo转载 2015-07-22 14:55:42 · 458 阅读 · 0 评论 -
Hadoop学习笔记系列文章导航【持续更新中...】
一、为何要学习Hadoop? 这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储转载 2015-07-22 15:31:03 · 479 阅读 · 0 评论 -
MRUNIT hadoop逐步调试工具!
MRUNIT hadoop MapReduce逐步调试工具!MRUnit简介MRUnit是一款由Couldera公司开发的专门针对Hadoop中编写MapReduce单元测试的框架。可以用MapDriver单独测试Map,用ReduceDriver单独测试Reduce,用MapReduceDriver测试MapReduce作业。实战我们将利用MRUnit对本系列上篇文章MapR转载 2015-07-22 14:59:39 · 361 阅读 · 0 评论 -
Flume(NG)架构设计要点及配置实践 Flume NG是一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集
Flume(NG)架构设计要点及配置实践Flume NG是一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持fa转载 2017-11-16 07:36:04 · 732 阅读 · 0 评论