
大数据
FlyingAngelet
这个作者很懒,什么都没留下…
展开
-
SolrCloud简介
一.简介 SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。 二.特色功能 SolrCloud有几个特色功能: 集中式的配置信息 使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上传 Zo...原创 2016-01-08 09:41:00 · 131 阅读 · 0 评论 -
Storm简介
诞 生 在2011年Storm开源之前,由于Hadoop的火红,整个业界都在喋喋不休地谈论大数据。Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大,响应缓慢,运维复杂。 有需求也就有创造,在Hadoop基本奠定了大数据霸主地位的时候,很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出来。...原创 2016-01-15 15:15:37 · 173 阅读 · 0 评论 -
Hive数据存储各种模式
Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。 一、Hive的数据存储 在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是...原创 2016-02-15 14:22:04 · 263 阅读 · 0 评论 -
MapReduce的排序和二次排序
1.Hadoop的序列化格式介绍:Writable 要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和类,这些是HADOOP自己的序列化格式。更 多的可能是要关注他的Subinterfaces:WritableComparable<T>。他是继承Writable和 Comparable<T>接口,继而WritableComparab...原创 2016-02-15 16:35:39 · 224 阅读 · 0 评论