spark03-读取文件数据分区数量个数原理

最新推荐文章于 2024-11-14 13:27:23 发布

原创

最新推荐文章于 2024-11-14 13:27:23 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

Spark读取文件时，默认使用Hadoop的getSplits方法进行分区，分区数量受总字节数（totalSize）和目标分区大小（goalSize）影响。若文件大小为7字节，最小分区数设为2，实际会按字节比例计算产生3个分区，因为剩余数据超过10%时会创建新分区。

代码

    val conf: SparkConf = new SparkConf().setMaster("local").setAppName("wordcount")
    val sc: SparkContext = new SparkContext(conf)
    val rdd: RDD[String] = sc.textFile("datas/1.txt",2)
    rdd.saveAsTextFile("output")

数据格式：

当texfFile可以将文件作为数据处理的数据源，默认也有设定分区

minPartitions:最小分区数量

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小朋友,你是否有很多问号?

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark查看每个分区的数据

ks_1998的博客

03-30

3277

Spark查看每个分区的数据

【spark2】【源码学习】【分区数】spark读取本地/可分割/单个的文件时是如何划分分区

梦，不可及，所以可期待...

10-06

2127

大数据计算中很关键的一个概念就是分布式并行计算，意思就是讲一份原始数据切分成若干份，然后分发到多个机器或者单个机器多个虚拟出来的内存容器中同时执行相同的逻辑，先分发(map)，然后聚合(reduce)的一个过程。那么问题是原始文件是怎么切分的呢，在spark读取不同的数据源，切分的逻辑也是不同的。首先spark是有改变分区的函数的，分别是Coalesce()方法和rePartition()方法，但是这两个方法只对shuffle过程生效，包括参数spark.default.parallelism也只是对.

参与评论您还未登录，请先登录后发表或查看评论

【spark2】【源码学习】【分区数】spark读取本地/可分割/多个的文件时是如何划分分区

梦，不可及，所以可期待...

10-18

894

spark的textFile API 支持读取单个文件，也支持读取文件夹路径并将文件夹路径下的文件都读取进内存处理，前面已经写了一篇关于【本地/可分割/单个】文件的分区处理，今天来看下【本地/可分割/多个】文件是怎么处理的。一、简要概述 1、goalSize从单个文件totalSize/minPartitions变成多个文件totalSize/minPartitions， 2、然后依旧是通过goalSize，minSize，blockSize计算出splitSize， 3、最后将splitS.

scala spark dataframe和rdd 获取分区个数及每个分区的内容

helloxiaozhe的博客

12-27

5628

1 dataframe获取分区个数 scala> // 构造测试数据源 scala> val df = spark.sparkContext.makeRDD(1.to(100), 4).toDF("id") df: org.apache.spark.sql.DataFrame = [id: int] scala> // 获取分区个数 scala> val partition_num=df.rdd.partitions.length partition_num: Int =

spark读取hdfs文件的分区数

lijianqingfeng的专栏

12-21

2212

一直以来都没搞懂spark读hdfs文件到底是怎么确定分区数的，分区数如果超过了spark的并行度怎么办。最近又在写spark任务，顺便看一下这个逻辑。（1）spark读hdfs文件的分区数由hdfs文件占用的文件块数决定。我们知道，hdfs文件存储的时候是分文件块的，就想操作系统存储文件一样。操作系统的一块一般是1024kB，hdfs文件一般存储大文件，一块一般设置为128MB。例如：如果读取的一个hdfs文件大小为1280MB，可能是存储为10块，那么spark读取这个文件的分区数就是.

如何解决Spark-sql读取hive分区表执行效率低问题

zjjcchina的博客

08-09

1364

在开发过程中使用spark去读取hive分区表的过程中（或者使用hive on spark、nodepad开发工具），部分开发人员未注意添加分区属性过滤导致在执行过程中加载了全量数据，引起任务执行效率低、磁盘IO大量损耗等问题。2、自定义规则CheckPartitionTable类，实现Rule，将规则类追加至Optimizer.batches: Seq[Batch]中。1、自定义规则CheckPartitionTable类，实现Rule，通过以下方式创建SparkSession。...

Spark 读取 HDFS 文件时 RDD 分区数的确定原理与源码分析

最新发布

z1941563559的博客

11-14

1040

Spark 通过goalSize和blockSize来平衡分区数量与块大小。分区数会随着文件大小、块大小、期望分区数等参数变化。分区数设定不合理会影响性能，例如分区数过多会导致任务调度开销增加，分区数过少则可能导致计算资源未充分利用。

spark 读取ftp_Spark开发-SparkSQL读写数据

weixin_32321921的博客

02-22

975

SparkSQL数据读写DataFrameReaderDataFrameWriterDataFrameReader 对应的组件 SCHEMA OPTION FORMATDataFrameReader 有两种访问方式,一种是使用 load 方法加载, 使用 format 指定加载格式,还有一种是使用封装方法, 类似 csv, json, jdbc 等//.第一种形式 READ + FORMAT...

如何统计当前Spark程序有多少分区？

SunnyRivers

05-09

1462

前言旁边小伙问：我现在本地有个529.24MB的文件，那么这个默认的有多少个分区数？我：…那个…如果数据来源于HDFS，那么block数量默认对应split数据同时对应partitons的数量，而block块的大小默认为128MB，所以529.24/128（4.13）也就是有5个分区小伙：这个我知道，现在数据在本地不是HDFS 我：…这个得测试一下如何获取分区数（1）获取默认分区数 sp...

spark04-文件读取分区数据分配原理

oracle8090的博客

02-13

786

文件分区数据分配

Spark创建RDD、DataFrame各种情况的默认分区数

02-25

本文来自dongkelun，讲各种情况下的sc.defaultParallelism，defaultMinPartitions，各种情况下创建以及转化。熟悉Spark的分区对于Spark性能调优很重要，本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数，其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDFS文件的Block数量有关，还有很坑的某些情况的默认分区数为1。如果分区数少，那么并行执行的task就少，特别情况下，分区数为1，即使你分配的Executor很多，而实际执行的Executor只有1个，如果数据很

Spark-sql Adaptive Execution动态调整分区数量，调整输出文件数

程老师的博客

10-29

2614

背景：在数仓任务中，经常要解决小文件的问题。有时间为了解决小文件问题，我们把spark.sql.shuffle.partitions这个参数调整的很小，但是随着时间的推移，数据量越来越大，当初设置的参数就不合适了，那有没有一个可以自我伸缩的参数呢？

Spark Core快速入门系列(9) | Spark读取文件的切片规则

Knight

08-21

897

目录读取文件的切片规则如果找不到源码-分享步骤读取文件的切片规则截取了源码重要的部分 //所有的文件 FileStatus[] files = listStatus(job); //记录所有文件的总大小 //numSlits是minPartitions=2 long totalSize = 0; long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits); //前部分没有配置，那么就是1 minSplitSize看源码也是1 long m

Spark RDD分区数和分区器

weixin_37901366的博客

05-11

934

① Ctrl + B 进入textFiletextFile底层其实就是通过去读文件② Ctrl + B 进入hadoopFile>>可以发现里面New了一个HadoopRDD实例③Ctrl + B 进入HadoopRDD类重点关注里面的方法>> 拆解分析1：最终返回的是一个partition数组>> 拆解分析2：inputSplits是通过getInputFormat(jobConf).getSplits(jobConf, minPartitions)获取，所以需要进入方法。

Spark 文件切片与数据读取解析

popping_w的博客

11-15

1093

Spark 文件切片与数据读取解析 1.Spark读取文件采用的是Hadoop的读取规则文件切片规则：以字节方式来切片数据读取规则：以行为单位来读取注意：文件中回车换行也占2个字节 2.问题：文件到底切成几片（分区的数量）？文件字节数（10），预计切片数量（2） 10/2=》5byte 源码： totalSize = 10 goalSize = totalSize / numSplits = 10 / 2 = 5 …1 => 3 //所谓的最小分区数，取决于总的字节数是否能整除分区

【Spark练习】RDD分区操作

weixin_40433003的博客

04-28

630

spark 分区操作练习

spark封神之路(13)-RDD分区详解

HANG.NIAN

06-23

1970

1 简介简介理解RDD是spark中封装的用来处理数据的一种抽象概念,其主要包含处理逻辑和要处理的数据! 无论是不读取文件获取的RDD还是从集合转换而来的RDD最终的目的都是为了处理对应的数据 ,数据量海量的话 , 我们应该很容易的想到让数据并行化分布式运算!牵扯到分布式那必然存在数据任务划分的问题!那么RDD在创建的时候就对数据进行了有效的分区!当然我们也可以合理的改变RDD的分区来提高运算效率! 一个partitioner，即RDD的分片函数。当前Spark中实现了两种类型的分片函数.

spark（二）创建RDD时默认分区数

heroking

04-04

2919

一、概述 Spark的分区数对于Spark性能调优很重要，如果分区数少，那么并行执行的task就少，比如分区数为1，即使你分配的Executor很多，而实际执行的Executor只有1个，如果数据量很大的话，那么任务执行的就很慢，因此熟悉各种情况下默认的分区数对于Spark调优就很有必要了，特别是执行完算子返回的结果分区数为1的情况，更需要特别注意。二、默认最小分区数：defaultMinPar...

spark通过textFile读取hdfs数据分区数量规则

xuexue1_1的博客

07-02

1464

作者：越走越远的风链接：https://www.jianshu.com/p/e33671341f0d 来源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。话不多说，直接上代码 val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local[*]") val sc = new SparkContext(conf); val rdd = sc.textFile("E:\\fandf\.

Spark任务Task深度解析：分区与数据读取优化

当Spark读取Hive表时，任务（Task）的数量通常与Hive表的分区数有关。Hive表的分区设计会影响Spark作业的并行度，一个分区对应一个Task。在特定情况下，如博客文章`spark读取hive表task个数`中提到的，我们可以分析...