- 博客(10)
- 资源 (2)
- 收藏
- 关注
转载 HBase
Hbase简介“数据资产会取代20世纪传统有形资产的地位,成为资产负债表的重要组成部分。”“数据的价值已经超越了传统企业广泛认同的价值边界”-----海量数据的重要性。Google和Amazon是认识到数据价值的典范,它们已经开始开发满足自己业务需求的解决方案。例如,Google在一系列的技术出版物中描述了基于商业硬件的可扩展的存储和处理系统。开源社区利用Google的这些思想
2016-09-13 23:16:34
1598
转载 Apache Spark
Spark大数据解决方案的强大在于他们可以快速处理大规模,复杂的数据集,可以比传统的方法更快,更好地生成洞见。一套大数据解决方案通常包含多个重要组件,从存储,计算和网络等硬件层,到数据处理引擎,再到利用改良的统计和计算算法,数据可视化来获得商业洞见的分析层。这中间数据处理引擎起到了十分重要的作用。毫不夸张的说,数据处理引擎之于大数据就像CPU之于计算机,或大脑之人类。Spark基于内存
2016-09-13 23:07:40
3753
转载 Hadoop基础知识---Hive篇
HIVE简介Hive是Hadoop生态系统中必不可少的一个工具,它提供了一种SQL方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其它和hadoop集成的文件系统,如果MapR-FS,Amazon S3和像HBase(Hadoop数据库)和Cassandra这样的数据库中的项目。大多数数据仓库应用程序都是使用关系型数据库进行实现的,并使用SQL作为查询语言。Hive
2016-09-03 17:46:25
4192
转载 Hadoop基础知识---之YARN原理简述
YARN原理简述MapReduce的缺陷多租户问题多用户多编程模型JobTracker/TaskTracker架构设计缺陷 JobTracker是集中处理点,单点故障JobTracker任务重,资源过度消耗资源模型过于简单 --- TaskTracker以MR Task数作为资源,没有考虑CPU和内存TaskTracker强制把资源分成map task slo
2016-07-28 17:21:06
1428
转载 Docker
DockerDocker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器完全是使用沙箱机制,相互之间不会有任何接口。Docker 是 PaaS 提供商 dotCloud 开源的一个基于 LXC 的高级容器引擎,源代码托管在 Github 上,基于go语言并遵从Apache2.0协议
2016-07-27 23:25:51
474
原创 Hadoop 基础知识 -- 知乎
HDFS与本地文件系统的关系HDFS是在现有的文件系统上抽象了一层,但不算是本地文件系统。为提供对不同数据访问的一直接口,hadoop借鉴了Linux的虚拟文件系统概念,引入了Hadoop抽象文件系统,并在此基础上,提供了大量的具体实现。HDFS是其中的一个实现。HDFS是更高层级的文件系统的抽象,将多台集群组成的文件系统看出一个逻辑上的整体。 GFS与HDFS对比介绍相同
2016-07-27 23:17:49
6794
1
转载 Hadoop 基础知识---之MapReduce篇
MapReduce基本原理MapReduce简介MapReduce是一个并行计算的框架–提供并行计算能力,随着节点数增加近似线性递增–分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成–并行编程对程序员透明,降低编程难度,方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。MapReduce是一种编程模型–用于大规
2016-07-27 23:15:54
892
转载 SQL on Hadoop
SQL on HadoopApache HiveHive是原始的SQL-on-Hadoop解决方案。它是一个开源的Java项目,能够将SQL转换成一系列可以在标准的Hadoop TaskTrackers上运行的MapReduce任务。Hive通过一个metastore(本身就是一个数据库)存储表模式、分区和位置以期提供像MySQL一样的功能。它支持大部分MySQL语法,同时使用相似的 da
2016-07-25 08:27:17
1500
转载 Hadoop 基础知识---之Zookeeper篇
Zookeeper基本原理Zookeeper简介Zookeeper顾明思议动物园管理员,它是拿来管大象(Hadoop),蜜蜂(Hive),小猪(Pig)的管理员,Apache HBase和Apache Solr以及LinkedinSensei等项目中都采用到了Zookeeper。Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和HBase的重要组件,Z
2016-07-21 10:32:48
534
转载 Hadoop 基础知识---之HDFS篇
HDFS基础知识HDFS简介起源 源于Google发布的GFS论文HDFS是Hadoop DistributeFile System 的简称,是Hadoop的一个分布式文件系统。 设计目标 大文件存储:支持TB-PB级的数据量高容错:运行在商业硬件上,而商业硬件并不可靠高吞吐量:为大量数据访问的应用提供高吞吐量支持适应场景:大文件访问流式数据
2016-07-17 15:11:08
5573
大数据时代的市场研究
2017-11-01
全量消费大数据商圈模型实战
2017-11-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人