
hadoop
zhongwen7710
这个作者很懒,什么都没留下…
展开
-
Hadoop pig进阶语法
Pig Latin是一种数据流语言,变量的命名规则同java中变量的命名规则,变量名可以复用(不建议这样做,这种情况下相当与新建一个变量,同时删除原来的变量)A = load 'NYSE_dividends' (exchange, symbol, date, dividends);A = filter A by dividends > 0;A = foreach A generate原创 2014-03-31 21:36:42 · 893 阅读 · 0 评论 -
【转自oschina网站】Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集
目录[-](一)hadoop 相关安装部署(二)hive(三)pig(四)hadoop原理与编码(五)数据仓库与挖掘(六)Oozie工作流(七)HBase(八)flume(九)sqoop(十)ZooKeeper(十一)NOSQL(十二)Hadoop 监控与管理(十三)Storm(十四)YARN & Hadoop 2.0(十五)ha转载 2015-01-04 22:09:40 · 2293 阅读 · 2 评论 -
Hadoop 管理监控工具:Apache Ambari
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hc原创 2014-09-28 22:08:10 · 2857 阅读 · 0 评论 -
sqoop框架原理及基本操作
1、Sqoop是什么Sqoop:SQL-to-Hadoop传统数据库与Hadoop间数据同步工具利用Mapreduce分布式批处理,加快了数据传输速度,保证了容错性2、Sqoop1架构sqoop1 import原理:从传统数据库获取元数据信息(schema、table、field、field type),把导入功能转换为只有Map的Mapre原创 2014-10-13 01:03:37 · 13770 阅读 · 3 评论 -
Hbase框架原理及相关的知识点理解、Hbase访问MapReduce、Hbase访问Java API、Hbase shell及Hbase性能优化总结
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服原创 2014-09-26 10:44:37 · 3192 阅读 · 0 评论 -
Hive调优知识点总结
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时原创 2014-09-26 01:09:02 · 917 阅读 · 0 评论 -
Hadoop 2.5.0新特性和改进
Apache Hadoop 2.5.0是一个在2.x.y发布线上的一个小版本,建立在之前稳定的发布版本2.4.1之上。主要特性和改进:1. Commona) 使用HTTP代理服务器时认证改进。当通过代理服务器使用WebHDFS时这是非常有用的。b) 增加了一个新的Hadoop指标监控sink,允许直接写到Graphite。c) Hadoop文件系统兼容相关的规范工作原创 2014-10-01 08:39:59 · 899 阅读 · 0 评论 -
利用graphviz生成hadoop 2.0 Yarn中的MR/RM/NM状态转换图
Graphviz是基于dot语言的绘图工具,它不是使用鼠标来画图的,而是通过dot语言描述,然后在命令行下使用命令生成对应的图片如有向图、无向图、关系图、目录图、流程图等。这样做的优点是不用去手动的对齐坐标,而且也可以作为一些可视化的解决方案。在hadoop yarn中,可以很方便的生成状态转换图:(1) 安装graphvizsudo apt-get/y原创 2014-09-11 15:45:40 · 2041 阅读 · 0 评论 -
Hadoop 2.0 NameNode HA和Federation实践
HDFS Federation是Hadoop最新发布版本Hadoop-0.23.0中为解决HDFS单点故障而提出的namenode水平扩展方案。该方案允许HDFS创建多个namespace以提高集群的扩展性和隔离性。本篇文章主要介绍了HDFS Federation的设计动机和基本原理。1. 当前HDFS概况1.1 当前HDFS架构当前HDFS包含两层结构:原创 2014-08-27 21:47:35 · 641 阅读 · 0 评论 -
自定义 hadoop MapReduce InputFormat 切分输入文件
问题:假如我需要按 cookieId 和 cookieId&time 的组合进行分析呢?此时最好的办法是自定义 InputFormat,让 mapreduce 一次读取一个 cookieId 下的所有记录,然后再按 time 进行切分 session,逻辑伪码如下:for OneSplit inMyInputFormat.getSplit() // OneSplit 是某个 cookieId原创 2014-09-09 21:17:35 · 953 阅读 · 0 评论 -
Pig、Hive、Map Reduce 解决分组 Top K 问题
问题:有如下数据文件 city.txt (id, city, value)cat city.txt 1 wh 5002 bj 6003 wh 1004 sh 4005 wh 2006 bj 1007 sh 2008 bj 3009 sh 900需要按 city 分组聚合,然后从每组数据中取出前两条value最大的记录。1、这是实际业务中经常会遇到原创 2014-09-09 23:25:06 · 838 阅读 · 0 评论 -
Hadoop MapReduce 二次排序原理及其应用
Hadoop MapReduce 二次排序原理及其应用 目录简介:1、 工作原理2、 二次排序3、 具体步骤3.1、自定义key3.2、自定义一个类4、 参考代码5、 测试6、 测试数据及结果7、 原理图8、 推荐阅读9、 Reference 问题描述:在进行日志分析时,为了便于按session 切分日志,我们原创 2014-09-09 21:11:29 · 1292 阅读 · 0 评论 -
Hbase和Hive之间的区别知多少?
Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉,转换成本低,类似作用的Pig就原创 2014-08-21 17:47:16 · 1048 阅读 · 0 评论 -
HDFS(Hadoop distributed filesystem)和KFS (Kosmos distributed filesystem)比较
1、HDFS 和 KFS 简介 两者都是GFS的开源实现,而HDFS 是Hadoop 的子项目,用Java实现,为Hadoop上层应用提供高吞吐量的可扩展的大文件存储服务。 Kosmos filesystem(KFS) is a high performance distributed filesystem for web-scale applications such as, s原创 2014-09-20 09:24:34 · 1312 阅读 · 0 评论 -
Hadoop生态系统介绍及HDFS与MapReduce原理详细阐述
1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是G原创 2014-09-18 17:48:53 · 4476 阅读 · 0 评论 -
hadoop操作常用命令
* 文件操作 * 查看目录文件 * $ hadoop dfs -ls /user/cl * 创建文件目录 * $ hadoop dfs -mkdir /user/cl/temp * * 删除文件 * $ hadoop dfs -rm /user/cl/temp/a.txt * * 删除目录与目录下所有文件 * $ hadoop dfs -rmr /use原创 2014-05-11 22:54:31 · 768 阅读 · 0 评论 -
Hadoop2.7.0+与Spark1.5+已将不支持JDK1.6
摘要:Hadoop2.7.0已发发布,但该版本已经不支持JDK1.6版本,由于该版本吸取了很多JIRAs,考虑到Bug还在测试中,请暂时不要使用该版本用于生产环境,可以用Hadoop 2.7.1/2.7.2,版本的更新应该很快发布。Spark社区激烈讨论决定,预计2015年6月发布Spark1.4.x,该版本会在Java 6,7,8上面工作;预计2015年9月发布Spark 1.5+,该版本只能在原创 2015-05-06 11:24:10 · 2467 阅读 · 0 评论