Hudi数据湖_Spark通过Shell从hudi中查询数据_scala查询脚本_时间旅行查询_parquet文件命名规则和源码查看---大数据之Hudi数据湖工作笔记0013

添柴程序猿

于 2024-12-29 09:00:00 发布

阅读量118

点赞数

CC 4.0 BY-SA版权

分类专栏：离&实时计算&大数据文章标签： hudi数据查询 hudi文件命名规则 hudi数据查询方法 hudi数据查询脚本

本文为博主原创文章，未经博主添柴程序猿允许不得转载违者追究法律责任。

本文链接：https://blog.youkuaiyun.com/lidew521/article/details/144770842

离&实时计算&大数据专栏收录该内容

191 篇文章 ¥9.90 ¥99.90

订阅专栏

超级会员免费看

然后我们再来看如何使用spark,使用scala,来从命令行中,进行

数据查询,可以看到这里,支持后面写hudi,还是因为我们配置了,hudi中的对spark支持的jar到spark中

然后这里的basePath这里一定要注意,因为我们开启了,多级分区,所以,如果hudi用的是0.9.0之前的版本,那么这里的basePath需要,把

子分级,也就是子目录也拼接上.

去执行

val tripsSnapshotDF = spark.
  read.
  format("hudi").
  load(basePath)
tripsSnapshotDF.createOrReplaceTempView("hudi_trips_snapshot")

可以看到这个代码的作用就是,去对应的path,去load数据,然后创建

tempview视图,根据表名: hudi_trips_snapshot

去创建视图.

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

添柴程序猿

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

主流OLAP引擎查询Hudi表数据

shangjg3的博客

10-09

368

Hudi存储和管理数据，同时为各种查询引擎提供了不同的查询方式。本文介绍了如何在不同的查询引擎中使用不同的查询方式，并讨论每个查询引擎的任何特定说明。1.1 快照查询快照查询是Hudi表最常见的查询类型。Spark SQL同时支持COPY_ON_WRITE和MERGE_ON_READ表上的快照查询。使用会话属性，可以围绕数据跳过和索引指定各种选项，以优化查询性能，如下所示。1.2 time travel 查询可以使用AS OF语法在特定的提交时间查询表。

Hudi数据湖_Spark通过Shell插入数据到Hudi_Scala测试数据生成_使用scala利用Spark向hudi中插入数据---大数据之Hudi数据湖工作笔记0012

添柴程序猿的专栏

12-28

179

就是重复数据,但是他们的ts,不一样,时间戳不一样,对吧,这里就指定了PRECOMBINE_FIELD_OPT_KEY 就是指定了ts这个字段,这个字段。然后上面的那个PRECOMBINE_FIELD_OPT_KEY预聚合配置,其实就是配置了,比如当,我们有两个数据,他们的主键都是1,内容也一样,那么。就是时间戳字段,他就会取,ts最大的,也就是最新的那个时间.做为判断标准. 这个就是PRECOMBINE_FIELD_OPT_KEY 预聚合的意思。

参与评论您还未登录，请先登录后发表或查看评论

Hudi数据湖_数据写_非分区表_key生成和删除策略_数据读与Compaction原理_集成Spark环境准备和启动Shell_Spark操作hudi配置---大数据之Hudi数据湖工作笔记0011

添柴程序猿的专栏

12-28

163

2.对于COW表进行的upsert的时候,有.parquet文件的时候,会先读取日志文件,然后创建索引,然后再去读取.parquet文件,这样就把日志文件中的数据和原来的.parquet中的数据进行合并,然后把合并的数据写入到.新的.parquet文件中,这样就完成了compaction合并。1.如果是COW表进行的insert的时候,并且没有.parquet文件的时候,就是还没有生成要插入数据的.parquet文件的时候,会直接合并所有的日志文件,并写入到.parquet文件中。这个操作不是物理删除。

数据湖之Hudi（10）：使用Spark查询Hudi中的数据

yang_shibiao的博客

02-25

2008

尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【Hudi集成Spark】

upward

07-15

1686

尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【Hudi集成Spark】

Hudi学习二：spark-shell操作Hudi

NC_NE的博客

05-22

2688

spark-shell操作hudi

数据湖之Hudi（6）：Hudi与Spark和HDFS的集成安装使用

yang_shibiao的博客

02-21

7721

数据湖（四）：Hudi与Spark整合

Lansonli（蓝深李）的博客

05-29

2873

默认Spark操作Hudi使用表类型为Copy On Write模式。Hudi与Spark整合时有很多参数配置，可以参照https://hudi.apache.org/docs/configurations.html配置项来查询，此外，整合时有几个需要注意的点，如下: Hudi这里使用的是0.8.0版本，其对应使用的Spark版本是2.4.3+版本 Spark2.4.8使用的Scala版本是2.12版本，虽然2.11也是支持的，建议使用2.12

数据湖之Hudi（11）：使用Spark更新Hudi中的数据

yang_shibiao的博客

02-26

1867

光子学领域基于连续域束缚态的铌酸锂二次谐波超表面COMSOL模拟研究 - 二次谐波

07-29

内容概要：本文探讨了基于连续域束缚态（BICs）的铌酸锂二次谐波超表面的COMSOL光子晶体模拟。首先介绍了BICs的概念及其在光学领域的应用潜力，然后详细描述了在COMSOL中建立的三维模型，包括周期性晶格结构和BICs模式。接着分析了模拟结果，展示了光子在铌酸锂超表面上的传播行为变化，特别是二次谐波效应的显著提升。最后讨论了代码实现和模拟结果的可视化方法，并展望了未来优化方向和其他潜在应用。适合人群：从事光子学、光学工程及相关领域的研究人员和学生。使用场景及目标：适用于希望深入了解BICs在铌酸锂二次谐波中的应用机制，以及希望通过COMSOL进行类似模拟实验的人群。其他说明：文中涉及大量COMSOL建模和仿真细节，对于初学者可能有一定难度，建议先掌握相关基础知识再进行深入学习。

Abaqus仿真技术在PCB板钻削加工中的应用：铜箔与纤维复合材料建模及本构关系研究

07-29

Abaqus仿真技术在PCB板钻削加工中的应用，重点讨论了铜箔和纤维复合材料的建模及其本构关系。首先，文章阐述了铜箔采用J-C本构模型进行模拟的原因及其优势，能够准确预测加工过程中的变形和应力。其次，针对纤维复合材料，文章提出了两种建模方式：二维壳单元Hashin准则和三维Hashin子程序，分别适用于不同的应用场景。此外，还探讨了有限元方法在PCB钻削加工仿真的应用，强调了结合实验数据和实际工艺参数的重要性。最后，文章指出，合理的仿真技术和材料选择有助于提升加工效率和产品质量。适合人群：从事PCB板制造及相关领域的工程师和技术人员，尤其是对仿真技术有一定了解并希望深入掌握Abaqus应用的人群。使用场景及目标：① 提高对PCB板钻削加工仿真技术的理解；② 掌握铜箔和纤维复合材料的建模方法；③ 学习如何结合实验数据和实际工艺参数优化仿真效果。其他说明：本文不仅提供了理论指导，还结合了实际案例，使读者能够在实践中更好地应用所学知识。

langchain4j-test-1.1.0-beta7.jar中文-英文对照文档.zip

07-29

1、压缩文件中包含：中文-英文对照文档、jar包下载地址、Maven依赖、Gradle依赖、源代码下载地址。 2、使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 3、特殊说明：（1）本文档为人性化翻译，精心制作，请放心使用；（2）只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等；（3）不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 4、温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件。 5、本文件关键字： jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册。

langchain4j-coherence-0.36.2.jar中文文档.zip

07-29

1、压缩文件中包含：中文文档、jar包下载地址、Maven依赖、Gradle依赖、源代码下载地址。 2、使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 3、特殊说明：（1）本文档为人性化翻译，精心制作，请放心使用；（2）只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等；（3）不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 4、温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件。 5、本文件关键字： jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册。

COMSOL电弧模型：多物理场联合仿真的电场、磁场、温度场、气流场分析及其应用

07-29

COMSOL电弧模型的多物理场联合仿真技术，涵盖电场、磁场、温度场、气流场等多个方面的仿真分析。文章首先概述了仿真技术在工业领域尤其是电力和电气工程中的重要性，接着具体阐述了COMSOL电弧模型的功能特点，如电场仿真分析、烧蚀仿真、多物理场联合仿真等。此外，文章还列举了该模型的具体应用场景，包括磁流体动力学模型、瞬态电弧、气吹电弧、磁吹电弧和断路器电弧的仿真，强调了其在理解和预测电弧动态演化过程中的重要作用。适合人群：从事电力工程、电气工程及相关领域的工程师和技术研究人员。使用场景及目标：适用于需要深入了解电弧动态特性的科研项目和产品研发，旨在提高产品的设计、优化和改进能力，确保电力系统稳定运行。其他说明：掌握COMSOL电弧模型的多物理场仿真技术有助于解决实际工程中的复杂问题，提升工作效率和产品质量。

langchain4j-spring-boot-starter-1.0.0-beta1.jar中文文档.zip

07-29

基于FPGA与Matlab的超声多普勒频移解调技术：DDS、混频、滤波、FFT及峰值搜索 - Matlab

07-29

内容概要：本文介绍了基于FPGA与Matlab协同处理的超声多普勒频移解调技术。具体步骤包括：① 使用DDS IP核生成2 MHz和(2 MHz + 1 kHz)的sin频率信号；② 利用乘法IP核实现混频处理；③ 采用FIR IP核进行低通滤波，滤波参数由Matlab获取；④ 调用FFT IP核完成快速傅里叶变换；⑤ 再次使用乘法IP核实现FFT处理后的取模运算；⑥ 对取模运算后的65536个数据进行峰值搜索并计算实际频率值，最终与1 kHz理论值进行比对。通过这些步骤，实现了高效的超声多普勒频移解调。适合人群：从事超声多普勒频移解调研究的技术人员、FPGA开发者以及对信号处理感兴趣的科研工作者。使用场景及目标：适用于医疗成像、工业检测等领域，旨在提高超声多普勒信号处理效率和精度，确保解调结果的准确性。其他说明：文中提供了详细的硬件描述语言（如VHDL和Verilog）代码片段，便于读者理解和复现实验过程。同时，还展示了Matlab在滤波器设计中的应用，强调了软硬件结合的优势。

langchain4j-community-clickhouse-spring-boot-starter-1.0.1-beta6.jar中文文档.zip

07-29

新能源汽车动力经济性能EDQ目标分解：基于SSTS方案的动力总成策略优化

最新发布

07-29

内容概要：本文探讨了新能源汽车动力经济性能EDQ目标分解的研究，重点介绍了SSTS（动力总成策略性能协同与优化实践）方案。文中详细解析了热管理策略、扭矩分配算法以及状态机切换等关键技术环节。热管理策略通过考虑电池荷电状态(SOC)和电机温度来调整功率输出，确保低温环境下的电池安全。扭矩分配算法采用动态权重分配策略，根据油门开度和SOC动态调整经济性和动力性的权重。状态机切换则根据驾驶员需求和道路条件智能选择不同的驾驶模式，如ECO、NORMAL、SPORT和BOOST，以实现最佳的驾驶体验和能效比。适合人群：从事新能源汽车研发的技术人员、汽车工程专业的学生及相关领域的研究人员。使用场景及目标：适用于新能源汽车动力系统的开发与优化，旨在提高车辆的加速性能和能耗表现之间的平衡，为实际应用提供理论和技术支持。其他说明：文章不仅提供了具体的算法实现细节，还深入讨论了各部分的设计思路及其背后的物理意义，有助于读者全面理解新能源汽车动力经济性能优化的关键技术和挑战。

相场锂枝晶隔膜技术：应力作用下正负极隔膜性能优化及其应用资料

07-29

相场锂枝晶隔膜技术的特点、应用场景和技术分析。首先，文章阐述了隔膜在电池中的重要性以及相场锂枝晶隔膜的优势，如优良的机械性能、电性能和化学稳定性，特别是其可加应力特性。其次，文章讨论了相场锂枝晶隔膜在新能源汽车和储能系统的应用，强调其对提升电池性能和安全性的关键作用。最后，通过对实验结果的分析，展示了相场锂枝晶隔膜在实际应用中的优异表现，展望了其广阔的发展前景。适合人群：从事电池技术研发、材料科学研究的专业人士，以及关注新能源汽车和储能系统发展的科研人员和技术爱好者。使用场景及目标：适用于希望深入了解电池隔膜技术最新进展的研究人员和技术开发者，旨在帮助他们掌握相场锂枝晶隔膜技术的核心优势和潜在应用。其他说明：本文不仅提供了理论分析，还结合了实验数据，确保读者能够全面理解相场锂枝晶隔膜的实际效果和未来发展方向。

Spark Hudi数据湖

03-09

### 使用 Apache Spark 和 Hudi 构建数据湖的最佳实践 #### 选择合适的存储系统和文件格式为了充分利用数据湖的优势，应当选择适合特定工作负载的存储系统、开放的数据格式以及处理引擎。数据湖相比传统的数据库提供了更高的灵活性和更低的成本，这使得其成为大数据生态系统中不可或缺的一部分[^1]。 #### 集成 Apache Hudi 组件华为 FusionInsight MRS 已经集成了 Apache Hudi 组件，旨在解决传统数据湖中存在的挑战。通过利用 Hudi 的特性，可以在不影响性能的情况下实现更高效的数据管理和更新操作[^2]。 #### 设置开发环境要开始使用 Spark 向 Hudi 插入数据，首先需要设置好服务器环境。具体来说，在 CentOS7 上安装 HDFS 是必要的前置条件之一；此外还需要创建一个 Maven 项目用于管理依赖项并编写应用程序代码[^3]。 #### 编写 Spark 应用程序当准备就绪之后就可以着手于实际的应用逻辑实现了。如果已经熟悉 Scala 并掌握了 Parquet 文件的操作方法，则会更容易理解和实施这个过程[^4]。下面是一个简单的例子展示如何使用 Spark SQL 来加载来自 Hudi 表的数据： ```scala import org.apache.spark.sql.SparkSession val spark = SparkSession.builder() .appName("Read from Hudi Table") .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") .getOrCreate() // Load data from a Hudi table into DataFrame. val df = spark.read.format("hudi").load("/path/to/hudi/table") df.createOrReplaceTempView("hudi_table_view") // Query the loaded data using Spark SQL. val resultDf = spark.sql("SELECT * FROM hudi_table_view WHERE ... ") resultDf.show(false) spark.stop() ``` #### 测试与验证最后一步是对整个流程进行全面测试以确保一切按预期运行。可以通过执行查询语句来获取已存入 Hudi 中的数据，并对其进行分析或可视化处理[^5]。