hadoop 自学指南
文章平均质量分 83
holo_hai
每天积累!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop 自学指南一之安装hadoop
一、前言a) 本人是菜鸟,不生产代码,大自然的搬运工。二、环境准备a) Linux版本:Ubuntu14.04b) Vmwarec) secureCRTd) 有志于大数据程序员(important)三、源码准备下载http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.2.1/Bin和源码包都下载下来原创 2015-09-05 20:11:35 · 590 阅读 · 0 评论 -
hadoop 自学指南八之Hive(2)
一、前言hive UDF二、Hive 常用的函数2.1、关系操作符Operator Operand types Description A = B All primitive types TRUE if expression A is equal to expression B otherwis原创 2015-09-23 23:58:21 · 837 阅读 · 0 评论 -
hadoop 自学指南八之Hive(1)
一、前言什么是hive?Hive 数据仓库工具,可以把hadoop下原始结构化数据变成hive中表看成sql->Map-Reduce的映射器,提供shell,jdbc/odbc接口他为数据仓库的管理提供了多功能:数据ETL工具,数据存储管理和大型数据集查询和分析能力二、Hive 数据存储hive 的数据存储建立在hadoop 的hdfs 基础上,hive 的每个对应的分区对应原创 2015-09-22 17:25:53 · 808 阅读 · 0 评论 -
hadoop 自学指南六之IO /HDFS 操作API
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);一、前言I/O相关的包如下:.apache.hadoop.io.* ,以下介绍一些常用的hdfs的API操作二、HDFS APIpackage hadoop.utils;import java.io.IOException;import原创 2015-09-20 21:29:35 · 617 阅读 · 0 评论 -
hadoop 自学指南七之hadoop2.x 特性
一、hadoop 2.x 产生背景: --hadoop 1.x hdfs 和 MapReduce 在高可用,扩展性 --hdfs 存在问题 nameNode 单点故障 nameNode 压力过大 --MapReduce JobTracker 访问过大,影响系统扩展性 难以支持MapReduce之外的计算框架,s原创 2015-09-20 23:58:24 · 719 阅读 · 0 评论 -
hadoop 自学指南五之MapReduce工作机制
一、前言从源码的角度剖析MapReduce 作业的工作机制二、MapReduce 执行流程分析如下:整个过程包含4个独立的实体客户端: 提交MapReduce 作业JobTracker: 初始化作业、分配作业。与TaskTracker通信TaskTracker:保持与JobTracker的通信,在分配的数据片段上执行MapReduce任务HDFS:保存数据原创 2015-09-20 16:05:59 · 489 阅读 · 0 评论 -
hadoop 自学指南十一之Zookeeper
一、前言Zookeeper是一个为分布式应用所设计的开源协议服务。它可以为用户提供同步、配置、管理、分组和命名等服务。用户可以使用Zookeeper提供的实现一致性、组管理、Leader选举及某些协议。二、zooKeeper特点简单的、丰富的组件(分布式队列、分布式锁和同级选举)、高可用、松耦合、资源库Zookeeper可以看成一个具有高可用的文件系统,但这个文件系统没有文原创 2015-10-08 11:45:44 · 437 阅读 · 0 评论 -
hadoop 自学指南十之Pig
一、前言Pig 提供一个支持大规模数据分析的平台。Pig的基础结构包括一个产生一个MapReduce的程序的编辑器,语言层包括一个Pig Latin的文本语言Pig可以看做hadoop 的客户端软件,可以连接到hadoop集群进行数据分析工作Pig方便不熟悉java的用户,使用一种较为简便的类似SQL的面向数据流语言pig latin 进行数据处理Pig latin 可以进行排序、原创 2015-10-04 21:05:55 · 408 阅读 · 0 评论 -
hadoop 自学指南四之常见MapReduce案例
一、前言介绍MapReduce 一些常见的经典案例二、去重思想:利用MapReduce 的shuffle过程,合并相同的key 特性,可实现。核心:Map ->context.write(new Text(line),new Text("")) ; Reduce->context.write(key,new Text(""))package hadoop.v5;原创 2015-09-14 17:20:55 · 642 阅读 · 0 评论 -
hadoop 自学指南九之HBase
一、前言Hbase 是Apache hadoop 的数据库,能够提供随机、实时的读写访问,具有开源,分布式,可扩展性及面向列存储特点。特性如下:及模块的可扩展性,一致性读写,可配置的表自动分割策略,RegionServer 自动故障恢复,便利地备份MapReduce 作业的基类,便于客户端访问的javaAPI为实时查询提供块缓存和Bloom Filter,可通过服务器端进行查询下推预测原创 2015-09-28 23:50:39 · 440 阅读 · 0 评论 -
Hbase 问题汇总
1、ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet解决:将hadoop1.2.1下的hadoop-core-1.2.1.jar拷贝到hbase-0.98.7-hadoop1/lib下,两文件大小不一致,以hadoop1.2.1为准;2、启动hbase she原创 2015-09-26 23:38:53 · 569 阅读 · 0 评论 -
Hadoop 问题汇总
1、关于Hadoop数据块Miss在页面提示的问题这个文档转至台湾的已了论坛,地址是:http://hadoop.nchc.org.tw/phpbb/viewtopic.php?f=4&t=1938 請教一個hadoop運行維護中的問題:背景:調整hadoop配置:1. hadoop的dfs.replication之前設置為1,現在改為3;2原创 2015-09-26 23:11:28 · 345 阅读 · 0 评论 -
hadoop 自学指南三之WordCount解析(3)
一、前言在某是情况下,Map函数会产生许多中间数据,而且都是重复的,为了减少reducer的输入提交reducer性能,我们往往需要一个中间程序来合并Map的输入,这时候可以利用combinerclass来有效减少网络传输的数据量。二、WordCount 的CombinerClass原理很简单:例如有一个map中(”hello",1)有10000个,传输到reducer端的确没什么原创 2015-09-06 18:29:46 · 528 阅读 · 0 评论 -
hadoop 自学指南三之wordcount 解析(1)
一、前言针对前面的wordcout的程序作一些解读二、wordcount 运行过程package hadoop.v3;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.fs.Path;import or原创 2015-09-06 01:22:47 · 617 阅读 · 0 评论 -
hadoop 自学指南三之WordCount解析(2)
一、前言自从0.20.2版本开始,hadoop 提供了一个新的API,新的API在org.apache.hadoop.mapreduce中,旧的api在org.apache.hadoop.mapred中二、新版的wordCountpackage hadoop.v3;import java.io.IOException;import java.util.StringTokenize原创 2015-09-06 02:47:50 · 452 阅读 · 0 评论 -
hadoop 自学指南二之开发环境搭建
一、前言从一个简单的程序观察hadoop 的运行过程二、window 下hadoop 的开发环境搭建环境准备:hadoop 1.2.1eclipse Version: Mars Release (4.5.0)hadoop-eclipse-plugin-1.2.1(网上有许多,不再重复提供)hadoop-eclipse-plugin-1.2.1放到dropins 启动ec原创 2015-09-05 21:42:41 · 695 阅读 · 0 评论 -
hadoop 自学指南十二之mahout
一、前言mahout 是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。目前Apache Mahout项目主要包括下面5个部分频繁模式挖掘:挖掘数据中频繁出现的项集聚类:将诸如文本、文档之类的数据分局相关的组分类:利用已经存在的分类训练器,对未分类的文档进行分类推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事物频繁子项挖掘:利用一个项集(查询记录原创 2015-10-18 17:13:24 · 682 阅读 · 0 评论
分享