
Hadoop生态系统
文章平均质量分 83
Hadoop
OnlyQi
我是一只蜗牛
展开
-
分布式数据处理系统的基本原则与设计理念
本文涉及ACID,CAP,和BASE的含义。原创 2020-10-07 10:24:05 · 614 阅读 · 0 评论 -
MapReduce常见计算模式
MapReduce常见计算模式,即实际编程中如何使用MapReduce实现常见的top n,join, group by等数据处理。原创 2016-03-04 15:16:17 · 3184 阅读 · 0 评论 -
MapReduce程序——wordCount
参考原文:http://www.cnblogs.com/little-YTMM/p/4396008.htmlimport java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.P转载 2016-03-04 15:46:04 · 654 阅读 · 0 评论 -
Hadoop2.0项目简介
一个完整的Hadoop 2.0 Cluster采用模块化设计,其核心项目包括:Hadoop Common: The common utilities that support the other Hadoop modules.例如权限管理等功能。 Hadoop Distributed File System (HDFS™): A distributed file system that...原创 2013-08-29 11:09:24 · 1303 阅读 · 0 评论 -
搭建Hadoop集群
集群节点数量我们需要考虑的第一个问题是需要多大规模的Hadoop集群。Hadoop集群的优势之一就是不需要一开始就考虑的太多,可以根据数据量的增加慢慢的扩展集群规模。因此一般从十个节点至几十个节点开始。Hadoop集群一般使用的典型机器配置为:两个4核 2~2.5 GHz CPU16~24GB ECC内存4*1TB SATA 硬盘前兆以太网假如数据每个月增长1T原创 2016-03-15 14:53:07 · 808 阅读 · 0 评论 -
Hive知识点
基础知识 hive元数据存储,Detby DB提供有限的单进程的存储服务。 因此对于集群和多用户并发的场景来说,需要使用MySQL或者类似的关系型数据库,只要该数据库可以使用JDBC连接即可。 conf目录下存放了Hive的配置文件,包括元数据存储,各种各样的优化和安全控制等等。如何与Hive交互 有三种方式可以访问Hive: 1,交互式的命令行界面 2,使用JDBC,ODBC(由thr原创 2016-03-05 17:53:18 · 1379 阅读 · 0 评论 -
Hadoop Cascading简介
Hadoop Cascading 是一个开源框架,该框架搭建在Hadoop之上。Cascading提供了一系列易用的数据操作API,如count,group by,join等等共开发人员直接使用,且该框架自动将这些数据操作翻译为底层Hadoop可运行的Map和reduce操作,从而大大加快程序开发速度。Cascading中使用了一系列特有的概念如flow(数据流),tap,pipe(数据管道)等。f原创 2016-03-02 17:54:14 · 2867 阅读 · 0 评论 -
Hadoop2.0架构
打开Hadoop的官网,我们可以看到Hadoop2.0包括两个方面的要点: HDFS – Hadoop File System。 YARN – Yet Another Resource Negotiator 也称为MapReduce2.0,即MPv2其中HDFS是底层的存储系统。不仅Hadoop的底层存储可以使用HDFS,其他分布式计算系统也可以使用HDFS作为底层存储系统。HDFS与在Hado原创 2016-01-08 17:47:35 · 7138 阅读 · 0 评论 -
Hadoop中的数据压缩
详细描述了在Hadoop中哪里,何时应该使用压缩。以及应该选择什么样的文件格式和压缩算法。原创 2016-03-16 16:12:18 · 5206 阅读 · 0 评论 -
Hadoop处理小文件
一篇2009年的老文章,现在读起来还是觉得不错, 特在这里mark一下!Small files are a big problem in Hadoop — or, at least, they are if the number of questions on the user list onthis topicis anything to go by. In this post I’ll...原创 2016-03-15 18:57:12 · 1071 阅读 · 0 评论 -
在hive中query外部表的简单测试
背景知识开始前需要确认hadoop和hive都已经安装好了。我们可以在hive shell中执行show tables;来检查hive是否可以正常工作。然后需要知道的是,在hive中有两种表:Managed TablesManaged tables or sometimes called internal tables, because Hive controls the原创 2013-09-10 10:11:35 · 1895 阅读 · 0 评论 -
Distributed computing
Distributed computing is a field of computer science that studies distributed systems. A distributed system consists of multiple autonomous computers that communicate through a computer network. The c转载 2012-09-13 16:30:28 · 1148 阅读 · 0 评论 -
Apache Camel with SQL Example
http://www.javavillage.in/apache-camel-sql-example.php转载 2015-02-12 16:13:32 · 2004 阅读 · 0 评论 -
10大数据面试最常问的问题
http://www.toptal.com/big-data#hiring-guide转载 2016-01-07 10:26:28 · 1693 阅读 · 0 评论 -
Hadoop1.0架构
首先本文参考了Hadoop in action。书非常不错,建议大家学习。 初学的同学建议先去看mapreduce的概念: http://blog.youkuaiyun.com/onlyqi/article/details/6877661,否则不容易看懂这篇文章的。第一个思考的问题:Hadoop架构 任何一个程序都可以被分为两个逻辑部分:程序逻辑本身和它操作的数据。数据本身需要大量的存储空间,而基于这些数据原创 2016-01-07 21:12:28 · 2938 阅读 · 0 评论 -
MapReduce概念
参考原文: http://code.google.com/intl/zh-CN/edu/parallel/mapreduce-tutorial.htmlMapReduce其实是两个分离的阶段:map和reduce。首先看一个简单的例子: 现需要计算1w篇文章中字母‘w’的数量。这些文章以键值对(key/value)的形式存储(表一): DocumentID(key) DocumentCo原创 2016-01-07 17:41:44 · 2388 阅读 · 0 评论