
hadoop
文章平均质量分 71
To-Big_Fish
爱编程,爱运动,爱游戏。。。
展开
-
hive中使用sql语句需要注意的事项
最近使用hive,在实际使用过程中有原创 2014-04-14 21:39:09 · 29658 阅读 · 1 评论 -
eclipse 连接并操作单机版Hbase
用eclipse操作hbase原创 2014-10-14 21:40:00 · 4998 阅读 · 1 评论 -
分布式文件系统架构GFS、HDFS、TFS、Haystack
分布式文件系统架构GFS、HDFS、TFS、Haystack分布式文件系统很多,包括GFS,HDFS,淘宝开源的TFS,Tencent用于相册存储的TFS (Tencent FS,为了便于区别,后续称为QFS),以及Facebook Haystack。分布式文件系统通常可以作为底层存储,如GFS作为Google bigtable的底层,EBS作为 Amazon原创 2015-01-28 20:12:05 · 13727 阅读 · 0 评论 -
Hbase + Mapreduce + eclipse实例
前面bolg中提到了 eclipse操作单机版的Hbase列子 不熟悉的朋友可以去看看 eclipse 连接并操作单机版Hbase本篇文章介绍一个 Mapreduce 读取 Hbase 中数据 并进行计算 列子 类似与 wordcount 不过 此时的输入 是从 Hbase中读取首先 需要创建输入源原创 2015-01-09 16:24:36 · 2722 阅读 · 0 评论 -
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
HDFS的体系架构整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能原创 2014-11-26 11:13:13 · 920 阅读 · 0 评论 -
HBase单机模式配置以及不能创建表问题的解决方法(Caused by: java.net.ConnectException: Connection refused)
前些日子想试一试hbase,刚开始按原创 2014-08-28 10:45:25 · 7974 阅读 · 0 评论 -
MapReduce中迭代查询的最优化
MapReduce中迭代查询的最优化 摘要:提出术语OptIQ:在分布式环境中迭代查询的一种查询优化的方法。(全自动化的) 用到的方法:view materialization and incremental view evaluation.物化视图和增量视图评估 作用:减少了不同迭代过程中的重复计算 1. INTRODUCTION 几种新的技术:翻译 2014-04-25 15:20:43 · 996 阅读 · 0 评论 -
Hive 安装及使用攻略
前言Hive是Hadoop一个程序接口,Hive让数据分析人员快速上手,Hive使用了类SQL的语法,Hive让JAVA的世界变得简单而轻巧,Hive让Hadoop普及到了程序员以外的人。从Hive开始,让分析师们也能玩转大数据。目录Hive的安装Hive的基本使用:CRUDHive交互式模式数据导入数据导出Hive查询HiveQLHive视图Hive分区表1. Hive的转载 2014-04-08 11:53:56 · 1684 阅读 · 2 评论 -
从MaxTemperature程序来看Mapreduce 的执行过程
1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录 每一行字符从0开始计数,第15个到第18个字符为年 第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+004301199099转载 2014-03-05 16:19:45 · 1231 阅读 · 0 评论 -
hive安装过程中的一个问题 return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.
我今天安装了 hive0.12.0 hadoop版本是1.0.1 安装完了之后启动hive 没有出现 hive historyhadoop@bigfish-System-Product-Name:/usr/local/hive/conf$ hiveLogging initialized using configuration in jar:file:/usr/local/h原创 2014-04-04 16:22:40 · 4764 阅读 · 0 评论 -
Hadoop平台下面实现PageRank算法
这里我们在hadoop平台下面实现Pagerank算法输入文件格式如下:1 1.0 2 3 4 5 6 7 82 2.0 3 4 5 6 7 83 3.0 4 5 6 7 84 4.0 5 6 7 85 5.0 6 7 86 6.0 7 87 7.0 88 8.0 1 2 3 4 5 6 7原创 2014-03-25 10:48:08 · 2042 阅读 · 0 评论 -
Hive中的分区和桶
Hive 把表组织成“分区” P啊人体提哦你原创 2014-04-18 10:49:37 · 3344 阅读 · 0 评论 -
MapRedcude编程框架中的数据流
Hadoop的核心组件在一起工作时如下图所示:图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务,每一个mapping任务都是平等的:mappers没有特定“标识物”与其关联。因此,任意的mapper都可以处理任意原创 2014-10-21 10:32:57 · 703 阅读 · 0 评论