BigData
cangyu2013
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark原理
参考文献: Spark原理总结 Github: Apache spark project Spark修炼之道(进阶篇)spark修炼之道(高级篇) Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing Spark简介 Spark是UC Berkeley ...原创 2018-12-24 15:48:22 · 1271 阅读 · 0 评论 -
Spark SQL原理
参考文献: Spark修炼之道(进阶篇)——Spark入门到精通:第八节 Spark SQL与DataFrame(一) sparkSQL1.1入门之二:sparkSQL运行架构 利用Spark SQL可以构建大数据平台上的数据仓库,它具有如下特点: 能无缝地将SQL语句集成到Spark应用程序 统一的数据访问方式(DataFrames and SQL provide a common w...原创 2018-12-25 11:54:24 · 585 阅读 · 0 评论 -
Spark Streaming原理
参考文献: Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一) Spark Streaming简介 Spark Streaming接受实时数据流, 然后将数据按批次划分, 再将这部分数据交由Spark引擎处理,处理完成后将结果输出到外部文件。 我们来看一段基于Spark Streaming的word count代码,它可以很好地帮助初步理解流...原创 2018-12-25 15:34:57 · 439 阅读 · 0 评论 -
Kafka最佳实践
本文为转载,原文链接:Kafka如何做到1秒处理1500万条消息 Apache Kafka -分布式数据流平台,New Relic(数据智能平台)、Uber、Square(移动支付公司)等用来构建可扩展、高吞吐量、高可靠的实时数据流系统。 例如,在 New Relic 的生产环境中,Kafka 群集每秒能处理超过 1500 万条消息,且其数据聚合率接近 1Tbps 但在大型系统中 Kafka...转载 2019-01-24 11:03:28 · 814 阅读 · 0 评论
分享