
Spark
文章平均质量分 84
「已注销」
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark核心概念理解
本来主要内容来自己《Hadoop权威指南》英文版中的Spark章节,可以说是个人的翻译版本,涵盖了主要的Spark概念。安装Spark首先从spark官网下载稳定的二进制分发版本,注意与你安装的Hadoop版本相匹配:wget http://archive.apache.org/dist/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.tgz解压:tar xz原创 2016-07-26 00:30:37 · 7215 阅读 · 1 评论 -
Spark RDD
RDD最初是由伯克利大学的几个教授提出的,原始论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing可以在这里下载,非常值得认真研究。RDD(Resilient Distributed DataSet)是Spark最核心的抽象。它代表的是元素的集合,Spark的文档中原创 2016-07-26 19:49:22 · 2105 阅读 · 0 评论 -
使用Spark和Pig统计每秒钟微博数量
手头有一个新浪微博的数据集,大概在1亿条左右。用Pig和Spark写了几行代码,基于400w条微博,统计了每秒钟发了多少条微博。 Life is too short , show me the code.将数据从本地拷到HDFS上:hadoop fs -copyFromLocal /home/data/weibo/201605/weibo_freshdata.2016-05-01 /input原创 2016-07-28 00:02:36 · 2648 阅读 · 0 评论 -
Spark及其子项目
Apache Spark是一个通用的分布式计算框架,基于内存的特点使得其以高性能著称。Spark应用可以运行在本地模式或者集群模式,集群模式中通过ClusterManager来管理整个应用,目前Spark提供了3中Cluster Manager:Standalone,Mesos,YARN。除了核心的计算引擎Spark Core以外,Spark还有一系列相关的项目:Spark CoreSpark Co原创 2016-08-07 19:38:48 · 2488 阅读 · 5 评论