
spark
S_Running_snail
我是一个即将毕业的大学生,对软件工程特别喜欢,特别是对于python这个语言
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark可以替代hadoop吗?
我经常会从客户或者网上听到这个问题,尤其是最近几年。那么关于spark哪些被我们神化了,哪些又是真实的,以及它在“大数据”的生态系统中又是怎样的? 说实话,其实我把这个问题作为标题是有问题的,但是我们经常会这样问。Hadoop并不是一个单独的产品而是一个生态系统,而spark也是一样的。下面让我们来一个一个解释。目前Hadoop生态系统主要包括:HDFS—Hadoop分布式文件系统。它是一...转载 2018-11-24 08:26:16 · 1895 阅读 · 0 评论 -
Streaming和Storm区别对比
一、 Spark Streaming与Storm的优劣分析这两个框架在实时计算领域中,都很优秀,只是擅长的细分场景并不相同。Spark Streaming仅仅在吞吐量上比Storm要优秀,但不是所有场景都那么注重吞吐量(集群的利用率比较高)事实上,Storm在实时延迟度上,比Spark Streaming就好多了,前者是纯实时,后者是准实时。而且,Storm的事务机制、健壮...原创 2019-04-18 14:13:04 · 682 阅读 · 0 评论 -
大数据实时计算原理--SparkStreaming
Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架。它的底层,其实,也是基于我们之前讲解的Spark Core的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。 只不过,针对实时计算的特点,在RDD之上,进行了一层封装,叫做DStream。之前的Spark SQL,它...原创 2019-04-18 14:04:16 · 969 阅读 · 1 评论 -
Spark-SQL之每日top3热点搜索词案例统计
实现思路1、针对原始数据(HDFS文件),获取输入的RDD2、使用filter算子,去针对输入RDD中的数据,进行数据过滤,过滤出符合查询条件的数据。2.1 普通的做法:直接在fitler算子函数中,使用外部的查询条件(Map),但是,这样做的话,是不是查询条件Map,会发送到每一个task上一份副本。(性能并不好)2.2 优化后的做法:将查询条件,封装为Broadcast广播变...原创 2019-04-13 14:21:25 · 1369 阅读 · 0 评论 -
Spark-SQL性能优化
性能优化1、设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf())2、在Hive数据仓库建设过程中,合理设置数据类型,比如能设置为INT的,就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时,尽量给出明确的列名,比如select name from students。不要写sel...原创 2019-04-13 14:18:43 · 1120 阅读 · 0 评论 -
Spark-SQL运行流程
Sprak SQL也是有lazy特性的,当你调用sql()执行SQL语句时,默认执行第一步-->>就是用SqlParser组件对SQL生成一个Unresolved LogicalPlan(调用了SqlParser的apply()方法,通过语法解析器,将SQL各部分组装成LogicalPlan,它是一课语法树---Tree) 然后将UL和SQLContext自身的实...原创 2019-04-13 14:16:27 · 877 阅读 · 0 评论 -
Spark-SQL之Hive,JDBC,JSON数据源
案例:利用json数据源执行sql -->> JSONDataSourcehttps://blog.youkuaiyun.com/S_Running_snail/article/details/89281218利用Hive数据源执行sql -->> HiveDataSourcehttps://blog.youkuaiyun.com/S_Running_snail/article/d...原创 2019-04-13 13:47:02 · 216 阅读 · 0 评论 -
Spark-SQL之JDBC数据源
JDBC数据源Spark SQL支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用Spark Core提供的各种算子进行处理。创建方式:查询时连接Mysql:用Spark SQL处理JDBC中的数据是非常有用的。比如说,你的MySQL业务数据库中,有大量的数据,比如1000万,然后,你现在需要...原创 2019-04-13 13:35:56 · 510 阅读 · 0 评论 -
Spark-SQL之Hive数据源
Hive数据源Spark SQL支持对Hive中存储的数据进行读写。操作Hive中的数据时,必须创建HiveContext,而不是SQLContext。HiveContext继承自SQLContext,但是增加了在Hive元数据库中查找表,以及用HiveQL语法编写SQL的功能。除了sql()方法,HiveContext还提供了hql()方法,从而用Hive语法来编译sql。案例中讲解如下...原创 2019-04-13 13:31:56 · 492 阅读 · 0 评论 -
Spark-SQL之JSON数据源
JSON数据源Spark SQL可以自动推断JSON文件的元数据,并且加载其数据,创建一个DataFrame。可以使用SQLContext.read.json ()方法,针对一个元素类型为String的RDD,或者是一个JSON文件。但是要注意的是,这里使用的JSON文件与传统意义上的JSON文件是不一样的。每行都必须,也只能包含一个,单独的,自包含的,有效的JSON对象。不...原创 2019-04-13 13:26:10 · 359 阅读 · 0 评论 -
Spark-SQL之load和save操作
案例:Spark SQL的load,save的案例实战 -->> GenericLoadSaveload和save操作: 对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作,主要用于将DataFrame...原创 2019-04-13 13:07:19 · 510 阅读 · 0 评论 -
Spark-SQL之RDD转换为DataFrame
案例:(最下面)一、以编程方式动态指定元数据,将RDD转换为DataFrame -->> RDD2DataFrameProgrammatically二、使用反射的方式将RDD->>DataFrame -->> RDD2DataFrameReflectRDD转换为DataFrame之后的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使...原创 2019-04-13 13:00:04 · 520 阅读 · 0 评论 -
Spark中的CheckPoint是什么?功能是什么?
Checkpoint是什么?Checkpoint,是Spark提供的一个比较高级的功能。有的时候啊,比如说,我们的Spark应用程序,特别的复杂,然后呢,从初始的RDD开始,到最后整个应用程序完成,有非常多的步骤,比如超过20个transformation操作。而且呢,整个应用运行的时间也特别长,比如通常要运行1~5个小时。在上述情况下,就比较适合使用checkpoint功能。因为,对于特...原创 2019-03-10 11:03:14 · 1528 阅读 · 0 评论 -
有道云笔记快捷键大全+修改
有道云笔记快捷键设置介绍:您可以点击菜单-设置-快捷键来查看或修改下面是默认的快捷键:1.切换界面模块隐藏(快捷键:ctrl+←)显示(快捷键:ctrl+→);2.新建笔记(快捷键:ctrl+n);3.激活窗口(热键:ctrl+shfit+y);4.隐藏窗口的截屏方式(热键:ctrl+shfit+PrintScreen);5.同步(快捷键:F5);6.插入待办...原创 2019-03-09 17:48:31 · 16962 阅读 · 2 评论 -
scala-wordcount详解
用scala语言写wordcount,主要也就那么几个流程,和mapreduce的思想步骤还是差不多的。下面我们来详细讲解一下:先看一下代码import org.apache.spark.{SparkConf, SparkContext}/** * @Date: 2018/12/17 9:03 */object wc_scala { def main(args: Arr...原创 2018-12-18 15:58:45 · 964 阅读 · 0 评论 -
Scala-Java实现Action--详解
本文用了Scala和Java两种语言书写,以便于理解主要涉及:1、reduce:2、collect:3、count:4、take:5、saveAsTextFile:6、countByKey:import java.util.Arrays;import java.util.List;import java.util.Map;import org.apache...原创 2018-12-20 20:49:29 · 253 阅读 · 0 评论 -
常用transformation详解
本文对于Spark中常用的transformation算子进行了实例详细讲解,注释上每一步写的很清晰并且分别以Java和Scala两种形式展现主要涉及:1、map:将集合中每个元素乘以22、filter:过滤出集合中的偶数3、flatMap:将行拆分为单词4、groupByKey:将每个班级的成绩进行分组5、reduceByKey:统计每个班级的总分6、sortBy...原创 2018-12-20 20:40:25 · 849 阅读 · 0 评论 -
Spark内核架构--清晰图解
详细步骤:1.提交的jar包2.spark-submit提交到集群上运行3.在提交的机器上,运行sparkSubmit的main方法(通过反射的方式创建我们编写主类的实例对象,调用main方法,执行代码)4.当代码到SparkContext,开始初始化SparkContxt5.初始化SparkContext,创建DAGscheduler,TaskScheduler6、当T...原创 2019-04-18 14:19:06 · 400 阅读 · 0 评论