
Spark
文章平均质量分 93
分布式数据计算框架
胡小白的数据科学之路
https://www.zhihu.com/people/hu-jia-hao-10-2
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark SQL:基于Spark的结构化数据操作的API
Spark SQL介绍Spark SQL 是Spark中技术最复杂的的组件之一,它提供了在Spark程序中对结构化数据进行操作的功能,即SQL查询。具体来说,Spark SQL 有如下3个重要特点:1.Spark SQL 支持多种结构化数据格式的读取,比如JSON,Parquet或者Hive表。2.Spark SQL 支持从多种外部数据源读取数据,除了本地数据,HDFS以及S3之外,还可以通过JDBC等标准数据库连接器连接外部的关系型数据库系统。3.最后一点就是能够在Spark程序中自由的进行SQ原创 2021-09-23 12:53:36 · 649 阅读 · 0 评论 -
Spark基础概念三部曲
>>Why use Spark?1.更高效的分布式计算我们知道在spark产生之前,就已经有非常经典的MapReduce计算框架存在了。但是MapReduce的一个很大的问题就是面对迭代计算或者数据的重复使用时效率很低,原因就是MapReduce计算过程中的中间结果都需要存储在HDFS磁盘中,而我们知道磁盘的I/O效率是很低的,这也导致了MapReduce在计算效率上的严重不足。为了解决这个问题,AMP实验室提出了一个新的数据结构,被称为RDD(Resilient Distributed原创 2021-09-14 01:14:24 · 217 阅读 · 0 评论 -
基于Ubuntu虚拟机的Spark简单集群搭建(二)
前言在之前的一篇文章中,我介绍了spark集群搭建的第一步,hadoop集群的搭建,在这篇文章中,我会继续讲解Spark集群的搭建过程。OK,假设我们现在已经成功安装并且配置好了hadoop,接下来,我们开始正式进入Spark的安装过程。1.Spark安装首先我们需要在master节点上进行Spark的安装。我选择了2.0.2的版本,这里是下载链接。当然你也可以选择其他的版本,但是需要注意的是,如果你选择的Spark版本过高,可能导致无法与你的hadoop版本适配。OK,完成下载后,..原创 2021-07-31 23:06:23 · 1138 阅读 · 1 评论 -
基于Ubuntu虚拟机的Spark简单集群搭建(一)
基本介绍作为一个Big Data领域的小白,最近自己尝试搭建了一个简易的spark集群。因此打算写篇博客记录一下整个过程。但是担心把所有部分放在一篇文章中可能导致文章过长,因此打算写成两篇。在这篇文章中,我会详细地介绍spark集群搭建的第一部分,hadoop集群的搭建。环境介绍虽说是一个集群,但是我总共只使用了两台ubuntu虚拟机,其中一个作为master节点,另一个作为worker节点。如果你想尝试使用更多的机器来搭建集群,也同样可以参考我的搭建过程,因为本质上差别不大。OK,下面我们原创 2021-07-24 00:57:37 · 2367 阅读 · 2 评论