spark04-文件读取分区数据分配原理

原创已于 2023-02-13 17:59:19 修改 · 781 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

于 2023-02-13 17:57:18 首次发布

spark 专栏收录该内容

14 篇文章

订阅专栏

文章介绍了Spark通过SparkConf和SparkContext读取文本文件的方式，强调了它以Hadoop的方式按行读取数据，不考虑字节数。每行数据的偏移量不会被重读，且数据分区基于偏移量范围，例如0号分区读取了1&&2，1号分区读取了3。因此，分区文件中的内容反映了这种读取模式。

接 https://blog.youkuaiyun.com/oracle8090/article/details/129013345?spm=1001.2014.3001.5502

通过上一节知道总字节数为7 每个分区字节数为3

代码

  val conf: SparkConf = new SparkConf().setMaster("local").setAppName("wordcount")
 
    val sc: SparkContext = new SparkContext(conf)
    val rdd: RDD[String] = sc.textFile("datas/1.txt",2)
    rdd.saveAsTextFile("output")

通过运营最终得到的输出文件为：

part-00002为空文件

1.spark读取文件采用的是Hadoop方式读取，所以一行一行读取，跟字节数没有关系

2.数据读取时以偏移量为单位，偏移量不会被重新读取

/*数据（回车占两字符）=》偏移量

1@@ =>0 1 2

2@@ =>3 4 5

3 =>6

3 数据分区的偏移量范围

0号分区 =>[0,3]=>1 2 偏移量是0-3 读取1@@ 2,但是以行为单位读取最终读取的为1@@，2@@，因此第一个分区文件分配的数字为1 2

1号分区 =>[3,6] => 3 偏移量是3-6 但是3 4 5 偏移量已经被0号分区读取过了，因此第二个分区文件分配的数字为3

2号分区 =>[6,7]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小朋友,你是否有很多问号?

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据Spark入门案例2–读文件+分区(python+scala版本)

qq_42754919的博客

06-09

550

大数据Spark入门案例2–读文件+分区(python+scala版本) 文章目录1.读文件1.scala版本1.1从内存中创建RDD2.从外部存储（文件）创建 RDD2.python版本2.分区1.scala版本2.python版本 1.读文件 1.scala版本 1.1从内存中创建RDD 从集合中创建 RDD，Spark 主要提供了两个方法：parallelize 和 makeRDD。从内存中创建数列集合。 parallelize() makeRDD() package com.root.RDD i

【Spark】-- spark com.crealytics 读写 excel 实现

欢迎来到我的博客，一起探索代码里的世界！

11-12

715

这些选项用于配置从 Excel 文件中读取数据的行为。这些选项用于配置将数据写入 Excel 文件时的行为。

参与评论您还未登录，请先登录后发表或查看评论

Spark查看每个分区的数据

ks_1998的博客

03-30

3265

Spark查看每个分区的数据

spark读取hdfs文件的分区数

lijianqingfeng的专栏

12-21

2199

一直以来都没搞懂spark读hdfs文件到底是怎么确定分区数的，分区数如果超过了spark的并行度怎么办。最近又在写spark任务，顺便看一下这个逻辑。（1）spark读hdfs文件的分区数由hdfs文件占用的文件块数决定。我们知道，hdfs文件存储的时候是分文件块的，就想操作系统存储文件一样。操作系统的一块一般是1024kB，hdfs文件一般存储大文件，一块一般设置为128MB。例如：如果读取的一个hdfs文件大小为1280MB，可能是存储为10块，那么spark读取这个文件的分区数就是.

04 Spark on 读取外部数据分区策略(源码角度分析)

lucklilili

12-27

512

Spark读取外部数据分区策略先来看一段代码，使用textFile方式读取外部数据。 val conf: SparkConf = new SparkConf().setAppName("SparkWordCount").setMaster("local[*]") val sc: SparkContext = new SparkContext(conf) val lines: RDD[String] = sc.textFile("/Users/liyapeng/Spark/data",

【spark2】【源码学习】【分区数】spark读取本地/可分割/单个的文件时是如何划分分区

梦，不可及，所以可期待...

10-06

2114

大数据计算中很关键的一个概念就是分布式并行计算，意思就是讲一份原始数据切分成若干份，然后分发到多个机器或者单个机器多个虚拟出来的内存容器中同时执行相同的逻辑，先分发(map)，然后聚合(reduce)的一个过程。那么问题是原始文件是怎么切分的呢，在spark读取不同的数据源，切分的逻辑也是不同的。首先spark是有改变分区的函数的，分别是Coalesce()方法和rePartition()方法，但是这两个方法只对shuffle过程生效，包括参数spark.default.parallelism也只是对.

spark03-读取文件数据分区数量个数原理

oracle8090的博客

02-13

1119

spark 读取文件产生分区原理

如何解决Spark-sql读取hive分区表执行效率低问题

zjjcchina的博客

08-09

1357

在开发过程中使用spark去读取hive分区表的过程中（或者使用hive on spark、nodepad开发工具），部分开发人员未注意添加分区属性过滤导致在执行过程中加载了全量数据，引起任务执行效率低、磁盘IO大量损耗等问题。2、自定义规则CheckPartitionTable类，实现Rule，将规则类追加至Optimizer.batches: Seq[Batch]中。1、自定义规则CheckPartitionTable类，实现Rule，通过以下方式创建SparkSession。...

精选资源

spark-3.1.2-bin-hadoop3.2.zip

10-19

Spark 3.1.2 支持 Hive Metastore，这使得 Spark SQL 可以无缝访问 Hive 表和分区，方便数据仓库的构建和查询。 5. **机器学习与MLlib** Spark 提供了 MLlib 库，包含多种机器学习算法。在 Hadoop 3.2 的环境下，...

精选资源

spark-2.3.0-bin-hadoop2.7版本.zip

03-25

Spark与Hadoop的集成，使得Spark可以无缝地读取和写入Hadoop的数据，进一步增强了其在大数据领域的应用。 Spark的核心特性包括： 1. **弹性分布式数据集（Resilient Distributed Datasets, RDD）**：RDD是Spark的...

源码走读篇之：spark读取textfile时是如何决定分区数的

weixin_36630761的博客

05-03

1486

前言：关于源码的文章，我自己其实也一直在有道云上有总结一些，犹豫平日里上班的缘故，着实没有太多的精力来写体系的写这些东西，但是，却着实觉得这些东西其实还是很重要的，特别是随着工作时间的渐长，越发觉得源码这个东西还是必须要看的，能带来很多的启发，我个人的体会是，每个工作阶段去解读都会有不一样的感受。我也不敢说去解读或者说让你彻底搞个明白，自己确实没有那个水平。我...

spark读取文件分区，textFile()的理解

AmazingPy的博客

09-08

3214

textFile函数 SparkContext.textFile(path,minPartitions) 设置两个文件：1.txt 和 2.txt放在data目录下，读取data目录，结合实际分区理解最小分区数对最终分区个数的影响。 1.txt文件内容如下 12 3456 2.txt文件内容如下 78 910 测试代码 val conf: SparkConf = new SparkConf().setAppName("test").setMaster("local") val sc = new S

【SPARK】浅谈Spark数据读取并行度获取及数据分区存储

SmallScorpion

02-15

1747

浅谈Spark数据读取并行度获取及数据分区存储

Spark每日半小时（13）——获取分区信息以及分区获益的操作

DK_ing的博客

06-06

487

获取RDD的分区方式在Java中，你可以使用RDD的partitioner()方法来获取RDD的分区方式。它会返回一个Optional<Partitioner>对象，这是用来存放可能存在的对象的容器类。你可以对这个Optional对象调用isPresent()方法来检查其中是否有值，调用get()来获取其中的值。如果存在值的话，这个值会是一个Partitioner对象。这本质上是一...

spark读取hive表，获取分区字段

weixin_43015677的博客

05-30

724

spark.table(hiveTable).sparkSession.catalog.listColumns(hiveTable) .filter(x => x.isPartition).map(_.name)

03 Spark on 读取内部数据分区策略(源码角度分析)

lucklilili

12-27

362

1.概述SparkRDD分区在Spark中RDD分区数就代表并行度，RDD可以指定分区，如不指定那就是CUP的Core数量有关，有多少Core就有多少分区。设置分区与不设置分区的差异：

Spark-分区器、文件读写与保存、累加器、广播变量

dafsq的博客

03-13

303

Spark-分区器、文件读写与保存、累加器、广播变量

spark分区

qq_38924865的博客

08-06

614

一，前言 1，概念输入文件可能是一个或者多个文件file。而一个文件是划分成多个文件块来处理的，文件块就是block。 spark读取文件的时候会设置解析文件的格式，一般是将若干个Block合并成一个输入分片，称为InputSplit。注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。 Task经过机器的处理产生结果放到partition，Task和partition不是绝对相等。Task个数相当于任务数个数...

Spark如何读取Hive表的分区字段等信息

Zero小猿的博客

07-17

1350

【代码】Spark如何读取Hive表的分区字段等信息。

spark.read.parquet 读取20250124-20250323的分区

最新发布

03-25

### 使用 `spark.read.parquet` 方法读取指定日期范围的 Parquet 文件分区要通过 Spark SQL 的 `spark.read.parquet` 方法读取特定日期范围内的 Parquet 文件分区，可以通过以下方式实现： #### 1. 构建路径列表如果 Parquet 数据是以 Hive 表的形式存储在 HDFS 上，并且具有按日期划分的分区结构，则可以直接构建这些分区对应的路径并传递给 `spark.read.parquet()` 方法。假设分区字段名为 `dt`，其格式为 `yyyyMMdd`。以下是代码示例： ```python from pyspark.sql import SparkSession # 初始化 SparkSession spark = SparkSession.builder.appName("ReadParquetByDateRange").getOrCreate() # 定义起始和结束日期 start_date = "20250124" end_date = "20250323" # 基础路径 (Hive 表所在的 HDFS 路径) base_path = "/path/to/hive/table/dt=" # 创建日期范围内的路径列表 date_range_paths = [ f"{base_path}{date}" for date in pd.date_range(start=start_date, end=end_date).strftime("%Y%m%d") ] # 使用 spark.read.parquet 加载多个路径 df = spark.read.parquet(*date_range_paths) # 显示 DataFrame 内容 df.show() ``` 上述代码中，`pd.date_range` 是 Pandas 库中的函数，用于生成指定范围内的一系列日期[^5]。每条路径都对应于一个具体的分区文件夹。 --- #### 2. 过滤分区列另一种更高效的方式是利用 Spark 自带的分区过滤功能。这种方法不需要手动列举所有可能的路径，而是让 Spark 根据分区列自动筛选符合条件的数据。以下是代码示例： ```python # 如果数据已经注册为 Hive 表或者视图 table_name = "your_hive_table" # 查询指定日期范围的数据 query = """ SELECT * FROM {table} WHERE dt >= '{start}' AND dt <= '{end}' """.format(table=table_name, start=start_date, end=end_date) # 执行查询并将结果加载到 DataFrame 中 df = spark.sql(query) # 或者直接使用 filter API 对已有的 DataFrame 进行操作 df_filtered = ( spark.table(table_name) .filter(f"dt BETWEEN '{start_date}' AND '{end_date}'") ) # 展示结果 df.show() ``` 此方法依赖于 Spark SQL 的分区裁剪能力，在底层会跳过不符合条件的分区文件[^2]。 --- #### 3. 参数调优为了提高性能，建议调整以下几个参数以优化 Parquet 文件的读取效率： - **`spark.sql.files.maxPartitionBytes`**: 控制单个 partition 的最大字节数，默认值为 128 MB。 - **`spark.sql.files.openCostInBytes`**: 设置打开新文件的成本，默认值为 4 MB。例如： ```python spark.conf.set("spark.sql.files.maxPartitionBytes", "67108864") # 设为 64MB spark.conf.set("spark.sql.files.openCostInBytes", "16777216") # 设为 16MB ``` 以上配置有助于减少小文件的影响以及提升 shuffle 性能。 --- ### 注意事项 - 当从 Hive Metastore 中读取 Parquet 表时，需确认是否启用了 `spark.sql.hive.convertMetastoreParquet=true` 配置项。该选项允许 Spark 使用自身的高性能 Parquet 解析器替代 Hive 默认解码器[^3]。 - 若遇到权限不足或其他异常情况，请检查日志输出 (`logInfo`) 并验证是否有足够的资源分配给作业运行。 ---