
大数据
小强的进阶之路
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ClickHouse大数据实时分析领域的黑马
大数据实时分析领域的黑马是ClickHouse,一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。 clickhouse背景 俄罗斯的“百度”叫做Yandex,覆盖了俄语搜索超过68%的市场,有俄语的地方就有Yandex;有中文的地方,就有百度么?好像不一定 : ) Yandex在2016年6月15日开源了一个数据分析的数据库,名字叫做ClickHouse,这对保守俄罗斯人来说是个特大...原创 2019-01-03 18:09:59 · 12073 阅读 · 4 评论 -
《从0到1学习Spark》-- 初识Spark SQL
Spark SQL是整个Spark生态系统中最常用的组件 今天小强给大家介绍Spark SQL,小强的平时的开发中会经常使用Spark SQL进行数据分析查询操作,Spark SQL是整个Spark生态系统中最常用的组件。这也是为什么很多大公司使用Spark SQL作为大数据分析的关键组件之一。 为什么引入Spark SQL 在Spark的早起版本,为了解决Hive查询在性能方面遇到的挑战,在...原创 2019-01-26 13:19:02 · 485 阅读 · 0 评论 -
《从0到1学习Spark》--DataFrame和Dataset探秘
昨天小强带着大家了解了Spark SQL的由来、Spark SQL的架构和SparkSQL四大组件:Spark SQL、DataSource Api、DataFrame Api和Dataset Api。今天小强和大家一起揭开Spark SQL背后DataFrame和Dataset的面纱。 DataFrame和Dataset演变 Spark要对闭包进行计算、将其序列化,并将她们发送到执行进程,这意味...原创 2019-01-30 16:41:05 · 210 阅读 · 0 评论 -
zookeeper特性与节点说明
一、zookeeper概要、背景及作用 zookeeper产生背景: 项目从单体到分布式转变之后,将会产生多个节点之间协同的问题。如: 每天的定时任务由谁哪个节点来执行? RPC调用时的服务发现? 如何保证并发请求的幂等 .... 这些问题可以统一归纳为多节点协调问题,如果靠节点自身进行协调这是非常不可靠的,性能上也不可取。必须由一个独立的服务做协调工作,它必须可靠,而且保证性能。 zo...原创 2019-09-30 10:17:21 · 571 阅读 · 0 评论