Spark SQL完善的表达式系统

本文详细探讨了Spark SQL的表达式系统,包括Expression、QueryPlan的继承结构,以及在不同SQL语句(如aggregation、order by、filter、select)下的物理执行计划。讨论了在优化过程中,如ColumnPruning如何影响Project操作,并通过具体示例分析了表达式计算的逻辑和优化规则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先spark sql的设计总体上:
1,首先我们要有一个树的节点,通过这个节点可以继承出单孩子节点,双孩子节点,叶子节点以及多孩子节点。
1.1,树的节点有最基本的遍历操作,这个遍历操作支持各种遍历,前缀后缀中缀,因为有些expression的折叠方式这样要求。
2,expression继承的是树的节点,因为expression可能含有两个孩子,一个孩子,多个孩子,也可能没有孩子。
3,QueryPlan继承的也是树节点,因为QueryPlan是可能还有如join两个孩子的逻辑算子,aggregation一个孩子的逻辑算子,或者relation叶子节点的逻辑算子。由QueryPlan再继承出LogicalPlan和PhysicalPlan的。LogicalPlan之上又有UnaryNode,BinaryNode,LeafNode,通过这些可以集成出join,aggregation等逻辑算子。PhysicalPlan在spark sql中叫SparkPlan,同理有SparkPlan继承出的UnaryNode,BinaryNode,LeafNode,通过这些可以继承出最终的物理join,aggregation。
4,对于select upper(a) from T;执行计划为Project--Relation,Project中输入的是a的attribute,但是Relation中出来的是整行,project通过projection,利用eval计算,在projection构造的时候有一个绑定的reference
SPARK SQL中可以使用正则表达式进行字符串处理。其中,可以使用translate函数将单词中的字符进行替换,比使用正则表达式更方便。例如,可以使用translate函数将单词中的L替换为1,E替换为3,T替换为7。示例代码如下: ```python from pyspark.sql.functions import translate df.select(translate(col("Description"), "LEET", "1337"), col("Description")).show(5, False) ``` 另外,还可以使用regexp_replace函数进行正则表达式的替换操作。例如,可以使用regexp_replace函数将Description列中的颜色名替换为字符"color"。示例代码如下: ```python from pyspark.sql.functions import regexp_replace, col regex_string = "Black|WHITE|RED|GREEN|BLUE" df.select(regexp_replace(col("Description"), regex_string, "color").alias("color_clean"), col("Description")).show(5, False) ``` 此外,还有其他一些函数可以用于正则表达式的处理,如regexp_extract和REGEXP_SUBSTR函数。这些函数可以根据指定的正则表达式从字符串中提取匹配的内容。具体使用方法可以参考相关文档。 #### 引用[.reference_title] - *1* *2* [Spark之正则表达式与处理日期与时间类型](https://blog.youkuaiyun.com/weixin_48077303/article/details/117326950)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [SparkSQL HiveSQL 常用正则表达式](https://blog.youkuaiyun.com/ytp552200ytp/article/details/110533069)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值