
spark
文章平均质量分 72
spark
纯欲天花板_
这个作者很懒,什么都没留下…
展开
-
Saprk总结
Saprk总结-大数据方向前言为什么要学习Spark?1. Spark比MapReduce快spark可以将数据缓存在内存中进行计算 (cache)spark是粗粒度资源调度,MR是细粒度资源调度DAG有向无环图 (spark两个shuffle中间结果不需要落地,MR需要数据落地)2. Spark简单1. Spark corespark比MR快的三个原因RDD五大特性:RDD由一组分区组成,默认一个block对应一个分区算子实际上是作用在每一个分区上的,每一个分区都会由一个原创 2022-01-09 22:58:44 · 646 阅读 · 0 评论 -
Spark调优
文章目录1. Spark调优之性能调优2. Spark调优之参数调优数据倾斜1. Spark调优之性能调优避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD进行持久化默认情况下,性能最高的是 MEMORY_ONLY,但前提是你的内存必须足够足够大, 可以绰绰有余地存放下整个RDD的所有数据。第二种常用 MEMORY_ONLY_SER级别。该级别会将RDD数据序列化后再保存在内存中,此时每个partition仅仅是一个字节数组而已,大大减少了对象数量,并降低了内存占用。尽量避原创 2022-01-08 21:00:46 · 966 阅读 · 0 评论 -
SparkStreaming
在大数据的各种框架中,hadoop无疑是大数据的主流,但是随着时代发展,hadoop只适用于离线数据的处理,无法应对一些实时数据的处理分析,我们需要一些实时计算框架来分析数据。因此出现了很多流式实时计算框架,比如Storm,Spark Streaming,Samaz等框架,本文主要讲解Spark Streaming的工作原理以及如何使用。1. SparkStreamingSparkStreaming是微批处理,每隔一段时间处理一次,每隔一段时间将接收到的数据封装成一个rdd, 再触发一个job处理r.原创 2022-01-07 20:39:06 · 1517 阅读 · 0 评论 -
SparkSQL JDBC连接
SparkSQL JDBC连接文章目录SparkSQL JDBC连接1、开启hive元数据服务1、开启hive元数据服务nohup hive --service metastore >> metastore.log 2>&1 &2、开启spark jdbc 服务cd /usr/local/soft/spark-2.4.5/sbin/./start-thriftserver.sh --master yarn-client3、在命令行中访问cd /usr/l原创 2022-01-06 20:07:27 · 3530 阅读 · 0 评论 -
Spark SQL整合Hive
文章目录1. Spark SQL整合Hive2. SparkSQL与Hive共用元数据2.1 开启Hive元数据服务2.1.1 修改hive配置2.1.2 启动hive元数据服务2.2 拷贝hive-site.xml和mysql驱动2.3 启动SparkSQL2.4 测试1. Spark SQL整合Hive为什么要进行整合?由于hive原生是基于MapReduce的,导致其查询耗时较长。为了保留Hive的架构解决方案,并优化查询速度,采用SparkSql与hive整合(spark on hive),原创 2022-01-05 16:26:14 · 2934 阅读 · 0 评论 -
Spark安装与使用
1、上传解压,配置环境变量 配置bin目录2、修改配置文件 confcp spark-env.sh.template spark-env.sh增加配置export SPARK_MASTER_IP=masterexport SPARK_MASTER_PORT=7077export SPARK_WORKER_CORES=2export SPARK_WORKER_INSTANCES=1export SPARK_WORKER_MEMORY=2gexport JAVA_HOME=/usr/loca原创 2022-01-05 13:24:07 · 389 阅读 · 0 评论 -
Spark RDD算子总结
1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;计算的弹性:计算出错重试机制;分片的弹性:可根据需要重新分片。分布式:数据存储在大数据集群不同节点上数据集:RDD 封装了计算逻辑,并不保存数据数据抽象:RDD 是一个抽象类,需要子类具体实现转载 2022-01-04 17:06:33 · 436 阅读 · 0 评论 -
Spark常用算子之行为算子
Spark常用算子之行为算子foreach// foreach 没有返回值 会触发job// 需要接收一个函数f:参数为RDD中的泛型,返回值类型为Unit // 1、读取students、scores数据 val stuRDD: RDD[String] = sc.textFile("Spark/data/stu/students.txt") // foreach 没有返回值 会触发job // 需要接收一个函数f:参数为RDD中的泛型,返回值类型为Unit原创 2022-01-03 16:47:20 · 641 阅读 · 2 评论 -
Spark常用算子之转换算子
Spark是一种基于内存的通用计算框架,使用Scala语言实现,是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松的操作分布式数据集。原创 2021-12-30 22:04:03 · 2056 阅读 · 0 评论