大数据
文章平均质量分 96
算法驯化师
1. 多年面试官经验、欢迎咨询各类简历修改、面试经验、求职准备、项目包装、项目指导(算法代码方向);
2. 混迹多个大厂搜索、推荐、广告、内容、数据挖掘、数据分析等多个岗位工作,目前大模型算法驯化师;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Pyspark-驯化】一文搞懂Pyspark中对json数据处理使用技巧:get_json_object
在处理存储为JSON格式的列时,我们经常需要从嵌套结构中提取特定字段。PySpark提供了get_json_object函数,它可以从JSON字符串中提取出特定的值。这个函数对于处理具有复杂JSON结构的DataFrame非常有用。get_json_object函数是PySpark中处理嵌套JSON数据的有用工具。通过本博客的代码示例,我们学习了如何使用这个函数从复杂的JSON结构中提取所需的字段。希望这篇博客能够帮助你更好地理解get_json_object的用法,并将其应用于处理JSON数据的任务中。原创 2024-08-12 13:41:14 · 1007 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂Pyspark中表连接的使用技巧
在数据处理和分析中,表连接(Join)是一种常用的操作,用于将两个或多个表中满足特定条件的数据行组合在一起。PySpark提供了多种连接函数,允许用户根据不同的键进行内连接、外连接、左连接和右连接。PySpark中的连接函数是处理和分析数据集的重要工具。通过本博客的代码示例,我们学习了如何使用不同的连接类型和条件来合并数据。希望这篇博客能够帮助你更好地理解PySpark中的连接操作,并将其应用于实际的数据处理任务中。原创 2024-08-12 13:35:06 · 2168 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂Pyspark写入hive表的使用技巧
在大数据处理中,经常需要将数据从临时存储转换到持久化存储中。PySpark提供了丰富的API,允许用户轻松地创建Hive表,并将数据从DataFrame或临时表写入。本文将介绍如何使用PySpark创建Hive表,添加列注释,并从临时表中导入数据。本文介绍了如何使用PySpark创建Hive表,为列添加注释,并从临时表中导入数据。通过示例代码,我们展示了创建表、定义数据类型和注释、以及数据导入的完整流程。希望这篇博客能够帮助您更好地理解PySpark与Hive的集成,并应用于实际的数据存储和管理任务中。原创 2024-08-10 11:07:33 · 1270 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂Pyspark修改hive表描述以及增加列使用技巧
在Hive中管理表结构是一项常见任务,尤其是在数据仓库环境中。使用PySpark,我们可以方便地对Hive表进行操作,包括增加新列和为列添加注释。这些操作有助于优化数据模型和提高数据的可读性。通过PySpark,我们可以方便地对Hive表进行结构调整,包括增加新列和为列添加注释。这些操作有助于维护数据的组织结构和提高数据的可用性。本博客提供了如何使用PySpark执行这些操作的示例,希望能够帮助您更好地管理和优化您的Hive表结构。原创 2024-08-10 10:44:31 · 793 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂Pyspark中过滤数据when和otherwise函数的使用技巧
在PySpark中,when和otherwise是pyspark.sql.functions模块中的函数,它们通常一起使用来实现条件数据转换。这种用法类似于传统编程语言中的if-else语句,允许用户根据条件创建新列或转换现有列的值。when和otherwise在PySpark中提供了一种灵活的条件数据转换方式,类似于编程中的if-else语句。通过本博客的代码示例,我们学习了如何使用这两个函数进行条件数据转换,包括嵌套使用和结合多个条件。原创 2024-08-09 15:47:02 · 1377 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂Pyspark中dropDuplicates和sort的使用技巧
在处理大规模数据集时,经常需要对数据进行清洗和排序。PySpark提供了dropDuplicates和sort方法,分别用于删除重复的行和对数据进行排序。这些操作对于提高数据质量、优化查询性能和准备数据进行分析至关重要。dropDuplicates和sort是PySpark中两个非常有用的函数,它们允许用户在DataFrame中删除重复的行和对数据进行排序。通过本博客的代码示例,我们学习了如何使用这两个函数进行数据清洗和排序操作。原创 2024-08-09 15:38:16 · 1051 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂Pyspark中过滤数据filter和when函数的使用技巧
在PySpark中,when和filter是两个非常有用的函数,它们用于在DataFrame中进行条件筛选和数据转换。when通常与select和withColumn一起使用,用于根据条件创建新的列或转换数据。filter则用于根据条件筛选出满足特定条件的行。PySpark中的when和filter是两个强大的函数,它们允许用户在DataFrame中进行条件筛选和数据转换。通过本博客的代码示例,我们学习了如何使用when进行条件筛选和数据转换,以及如何使用filter进行条件筛选。原创 2024-08-08 13:37:43 · 1306 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂Pyspark中对空值的处理dropna函数的使用技巧
在数据分析和机器学习中,处理缺失数据是一项常见且重要的任务。PySpark提供了dropna方法,它允许用户从DataFrame中删除包含缺失值的行或列,从而简化数据集并提高模型的性能。withColumnRenamed是PySpark中一个非常实用的功能,它允许用户轻松地重命名DataFrame中的列。通过本博客的代码示例,我们学习了如何使用withColumnRenamed进行单个列和多个列的重命名操作,以及如何将其与其他DataFrame操作结合使用。原创 2024-08-08 13:36:25 · 865 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂Pyspark中的withColumnRenamed函数的使用技巧
在数据处理过程中,经常需要对列名进行修改以符合特定的命名规范或为了提高可读性。PySpark提供了withColumnRenamed方法,这是一种便捷的方式来重命名DataFrame中的列。withColumnRenamed是PySpark中一个非常实用的功能,它允许用户轻松地重命名DataFrame中的列。通过本博客的代码示例,我们学习了如何使用withColumnRenamed进行单个列和多个列的重命名操作,以及如何将其与其他DataFrame操作结合使用。原创 2024-08-07 13:20:44 · 1254 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂Pyspark中Dataframe的基本操作介绍
一般目前对于pyspark进行操作,基本都是处理一些log数据,这个时候一般通过将数据转换为dataframe进行操作会比较常用,对于算法工程师来说,目前我在的公司基本数据以及被进行ETL操作了,基本是结构化的数据,不需要我们通过scala进行数据转换了,因此基本都是对dataframe的数据进行数据清洗、特征提取。PySpark的DataFrame提供了一种高效、易用的方式来处理结构化数据。原创 2024-08-07 13:11:29 · 1272 阅读 · 0 评论 -
【Pyspark-驯化】一文搞懂Pyspark中的RDD的使用技巧
spark的运行基本由两部分组成:Transformnation(转换)和action,其中第一部分这类方法仅仅是定义逻辑,并不会立即执行,即lazy特性。目的是将一个RDD转为新的RDD。action不会产生新的RDD,而是直接运行,得到我们想要的结果RDD是PySpark中的核心数据结构,提供了丰富的操作来处理大规模数据集。通过本博客的代码示例,我们学习了如何创建RDD、执行转换和行动操作,以及使用高级功能如Pair RDD和聚合操作。原创 2024-08-06 14:24:34 · 749 阅读 · 0 评论
分享