
hadoop家族系列
文章平均质量分 67
研究hadoop已经差不多一年了,期间接触了比较多的知识,对一些技术有了比较深刻的印象,希望通过博客记录下来,与他人分享交流。
To-Big_Fish
爱编程,爱运动,爱游戏。。。
展开
-
Hbase + Mapreduce + eclipse实例
前面bolg中提到了 eclipse操作单机版的Hbase列子 不熟悉的朋友可以去看看 eclipse 连接并操作单机版Hbase本篇文章介绍一个 Mapreduce 读取 Hbase 中数据 并进行计算 列子 类似与 wordcount 不过 此时的输入 是从 Hbase中读取首先 需要创建输入源原创 2015-01-09 16:24:36 · 2722 阅读 · 0 评论 -
从MaxTemperature程序来看Mapreduce 的执行过程
1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+004301199099转载 2014-03-05 16:19:45 · 1231 阅读 · 0 评论 -
Hadoop平台下面实现PageRank算法
这里我们在hadoop平台下面实现Pagerank算法输入文件格式如下:1 1.0 2 3 4 5 6 7 82 2.0 3 4 5 6 7 83 3.0 4 5 6 7 84 4.0 5 6 7 85 5.0 6 7 86 6.0 7 87 7.0 88 8.0 1 2 3 4 5 6 7原创 2014-03-25 10:48:08 · 2042 阅读 · 0 评论 -
hive安装过程中的一个问题 return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.
我今天安装了 hive0.12.0 hadoop版本是1.0.1 安装完了之后启动hive 没有出现 hive historyhadoop@bigfish-System-Product-Name:/usr/local/hive/conf$ hiveLogging initialized using configuration in jar:file:/usr/local/h原创 2014-04-04 16:22:40 · 4764 阅读 · 0 评论 -
Hive 安装及使用攻略
前言Hive是Hadoop一个程序接口,Hive让数据分析人员快速上手,Hive使用了类SQL的语法,Hive让JAVA的世界变得简单而轻巧,Hive让Hadoop普及到了程序员以外的人。从Hive开始,让分析师们也能玩转大数据。目录Hive的安装Hive的基本使用:CRUDHive交互式模式数据导入数据导出Hive查询HiveQLHive视图Hive分区表1. Hive的转载 2014-04-08 11:53:56 · 1684 阅读 · 2 评论 -
hive中使用sql语句需要注意的事项
最近使用hive,在实际使用过程中有原创 2014-04-14 21:39:09 · 29658 阅读 · 1 评论 -
Hive中的分区和桶
Hive 把表组织成“分区” P啊人体提哦你原创 2014-04-18 10:49:37 · 3344 阅读 · 0 评论 -
HBase单机模式配置以及不能创建表问题的解决方法(Caused by: java.net.ConnectException: Connection refused)
前些日子想试一试hbase,刚开始按原创 2014-08-28 10:45:25 · 7974 阅读 · 0 评论 -
eclipse 连接并操作单机版Hbase
用eclipse操作hbase原创 2014-10-14 21:40:00 · 4998 阅读 · 1 评论 -
MapRedcude编程框架中的数据流
Hadoop的核心组件在一起工作时如下图所示:图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定“标识物”与其关联。因此,任意的mapper都可以处理任意原创 2014-10-21 10:32:57 · 703 阅读 · 0 评论 -
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
HDFS的体系架构整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能原创 2014-11-26 11:13:13 · 920 阅读 · 0 评论