Spark读取Hive数据或文件如何提升速度的优化思路

场景描述

  • 场景一:数据不均匀,个别task获取的数据比其他Task多,导致单个Task或几个Task执行很慢。
  • 场景二:数据均匀,但是每个Task数据量都很多,执行时间达不到预期。

解决思路

  • 读取前优化:优化文件存储,比如Hive分区存储,控制每个文件数据量等;
  • 读取时优化:在读取hive或者文件时优化(推荐);
  • 读取后优化:在读取文件后进行优化。

常用手段

  • 读取前优化:在文件读取前优化文件,比如Hive分区、分桶、压缩存储,控制每个文件数据量等;
  • 读取时优化:在读取hive或者文件时优化(支持的文件格式:Parquet, JSON and ORC.)(推荐);
    • 使用:spark.sql.files.maxPartitionBytes(非常有用),设置读取文件时每个分区的最大字节数,从而控制每个Task处理的数据量。通过减小这个参数的值,可以增加分区的数量,从而增加Task的数量。
    • 使用:spark.sql.files.openCostInBytes,设置打开文件的固定开销,影响文件分区的决策。在计算分区数时,Spark会考虑打开文件的成本。如果文件很小,Spark可能会将多个文件合并到同一个分区中,即使这意味着超过maxPartitionBytes的限制。在处理大量小文件时,调整这个参数可以帮助Spark更合理地分配Task。
spark.conf.set("spark.sql.files.maxPartitionBytes", (maxPartitionBytes * 1024 * 1024).toString) // 设置每个分区最大为128MB
spark.conf.set("spark.sql.files.openCostInBytes", "4194304") // 设置为4MB(这个也可以不设置)
  • 读取后优化:在读取文件后进行优化。
    • 使用repartition或coalesce
    • 使用repartitionAndSortWithinPartitions
    • 使用spark.sql.shuffle.partitions

优化结果

通过上面的方式,基本控制每个Task在18MB左右,每个task3~6分钟左右,整体也就7分钟左右完成,之前基本需要30分钟左右

### 使用 Spark 读取 Hive数据 #### 方法一:直接采用 Spark on Hive 方式读取数据 可以直接利用 `SparkSession` 提供的功能来查询 Hive 中的数据。这种方式下,`SparkSession` 在执行 SQL 查询会自动访问集群内的 Hive 库表,并加载 HDFS 上存储的实际数据及其元数据到 DataFrame 对象中。 ```scala val df = spark.sql("SELECT * FROM test.user_info")[^1] ``` 这段代码展示了如何创建一个 DataFrame 来保存来自名为 `test.user_info` 的 Hive 表的所有记录。 #### 方法二:通过 HadoopRDD 扫描读取 Hive 数据 另一种方法涉及更底层的操作机制——即借助于 `org.apache.spark.sql.hive.TableReader` 类构建 HadoopRDD 实现对 Hive 表的读取过程。此路径适用于那些希望深入了解内部工作原理需要定制化处理逻辑的应用场景。 ```java // 构建HadoopRDD的相关Java伪代码示意 TableReader reader = new TableReader(); reader.readTable(); // 此处省略具体实现细节[^2] ``` 需要注意的是,在实际应用开发过程中通常不会直接调用此类接口;而是优先考虑使用更高层次抽象如上述提到的第一种方式。 #### 注意事项 当遇到 ETL 流程中修改 Hive 表结构(例如增加新字段)之后再尝试用 Spark 访问这些变更后的表格可能出现 Schema 不匹配的问题。为了避免这种情况发生并保持两者之间的一致性,建议在完成任何 DDL 变动后及运行 `REFRESH TABLE` 命令刷新缓存中的表定义信息[^4]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值