Spark
文章平均质量分 84
HanseyLee
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一种基于SparkSQL的Hive数据仓库拉链表缓慢变化维(SCD2+SCD1)的示例实现
背景 Hive 实现缓慢变化维,没有使用事务表的更新和删除操作(最新版本Hive已经支持,但需要Server/Client做相应配置,Hive实现的事务还有一定的局限性) Hive 自身的SQL使用MapReduce引擎,速度慢,这里使用SparkSQL实现 参考: 准备基础维度表 base_dim 业务字段:id, name, city, st 维度表默认字段:sk, scd_upd...原创 2019-08-06 16:43:12 · 1899 阅读 · 0 评论 -
spark架构、部署形式和运行机理(独立集群、YARN集群)
spark 生态架构 http://dblab.xmu.edu.cn/blog/spark/ Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发, 分布式大数据并行计算框架。 在实际应用中,大数据处理主要包括以下三个类型: 复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间; ...原创 2019-08-31 12:48:56 · 788 阅读 · 0 评论 -
RDD DataFrame DataSet
RDD DataFrame DataSet https://databricks.com/wp-content/uploads/2016/06/Unified-Apache-Spark-2.0-API-1.png https://www.infoq.cn/article/three-apache-spark-apis-rdds-dataframes-and-datasets https://da...原创 2019-08-31 12:51:30 · 438 阅读 · 0 评论 -
Kafka消息系统介绍及与SparkStreaming结合实践案例
Kafka ABC Reference 参考 背景 源起 消息队列 Kafka Introduction 简介 Topo 拓扑结构 Partition 分区 Partition Fault-tolerance & Load-balance 容错和负载均衡 Producer 消息路由 Topic leader and follwers Consumer Group Kaf...原创 2019-08-31 15:01:37 · 480 阅读 · 0 评论
分享