
大数据分析
文章平均质量分 57
睁开眼起床
工程师的核心-技术和产品。
这个概念是什么,这个概念不是什么,和别的概念有什么异同。使用时注意什么,怎么使用是正确的,怎么使用是错误的,容易发生错误的地方是什么。
这个概念在现实中哪些地方正在被使用,那些场景可以使用,模拟使用的场景。我的行为和思考模式哪些可以被这个概念改变,这个概念,这个方法论还可以用在什么地方。
---践行
学习一个领域,首先要知道这个领域最重要的“概念”,琢磨与之相关的方法论。
展开
-
大数据分析的技术栈(四)-Spark&Scala
序言这是大数据分析技术栈文章的第四篇。这篇文章我们主要focus在Spark和实现Spark的Scala语言。原创 2017-02-28 16:26:26 · 655 阅读 · 0 评论 -
大数据分析的技术栈(五)-Impala
序言这是大数据分析技术栈的第五篇文章,在这篇文章里面,我们主要介绍Imapla的使用。原创 2017-02-28 16:46:46 · 531 阅读 · 0 评论 -
大数据分析的技术栈(二)-Apache Kafka
序言Apache Kafka是一个分布式的流系统。Kafka作为流系统有下面的几个能力: 作为消息处理系统,可以和我们EMS里面的Queue和Topic这些做一些类比。 可以作为一个存储系统,因为是分布式的结构,所以存储能力是很强的。 作为一个流处理系统,实现实时处理的需求。 本片文章主要介绍的是第一个能力,也就是作为消息处理系统的能力。 kafka适合构建什么系统呢? 作为一个消息中间件,在不同原创 2017-02-22 11:44:20 · 2342 阅读 · 1 评论 -
大数据分析的技术栈(三)-Hive
序言这是大数据分析技术栈的第三篇文章,在这片文章里面我们主要讨论的是Hive的使用。Hive是什么Hive直观的解释Hive到底是什么呢?下面是有道词典的解释。 Hive: 蜂房,蜂巢,热闹的场所,熙攘喧闹的人群。下面直接上图来直观的了解一下Hive到底是什么。 是的,Hive就是这个看起来像蜜蜂,但是仔细观察,似乎又像小飞象的可爱的小东西。Hive的官方解释 参考自Hive官网 大致来原创 2017-02-28 16:23:12 · 2036 阅读 · 0 评论 -
大数据分析的技术栈(一)-HBase, Parquet
序言前段时间做了一个大数据分析的一个项目,对于大数据分析的技术栈有了一个比较全面的认识,下面一个系列的文章,会对整个技术栈做一个介绍,本篇文章关注的是DB部分,HBase和Parquet。HBaseHBase是什么呢?HBase是架构在HDFS文件系统之上,面向列存储的,分布式的非关系型数据库。这句话里面包含的信息量有点多,不要急,由我慢慢道来。 架构在HDFS文件系统之上: 我们都知道HDFS是H原创 2017-02-20 21:46:36 · 9886 阅读 · 1 评论