簌簌曌-优快云博客

原创 4.8笔记

df.sort(df.age,df .score ,ascending=[1,0]).show() #1=True: 升序，0=False:降序 df.sort(df.age.asc(),df.score.desc()).show() #desc:降序，asc:升序。df.groupBy( 'gender' ).agg({'age ' : 'mean' ,'score' : 'max'}) .show() #agg()聚合操作，aggregate。

2025-04-08 15:42:55 318

原创 2025.4.1学习笔记

更新软件源并安装# 服务管理命令sudo systemctl start mysql # 启动服务sudo systemctl enable mysql # 设置开机自启sudo systemctl status mysql # 查看服务状态。

2025-04-01 20:00:00 499

原创 Spark数据处理实例

词频统计案例1.需求分析这个文件的数据是非结构化的，每行的单词个数是不固定的，也没有具体的含义。为了使用Spark SQL来处理它，第1步工作就是要将这个文件的数据转换成结构化的形式，由于我们真正关注的是各个单词，因此可以像以往那样将文件数据转换为RDD，然后经过一定的处理后将其转变为DataFrame，这样就可以由SparkSQL来处理2.SparkSQL编程实现首先将文件数据转换为rdd1，由于它是非结构化的数据，因此同样需要把每行包含的单词切解出来。

2025-03-26 21:10:07 366

原创基本 TopN 问题与RDD 问题实践

基本 TopN 问题与RDD 问题实践

2025-03-19 18:01:38 363

原创 RDD转换行动操作

union合并数据intersection数据交集subtract数据减集groupBy分组数据groupByKey分组数据reduceByKey合并数据sortByKey排序数据keys和values操作mapValues和flatMapValues操作collect操作take操作。

2025-03-12 17:56:30 538

原创 RDD的创建和转换

RDD（Resilient Distributed Dataset）是Spark中最基本的数据结构，代表分布式的不可变的数据集。RDD可以在集群中进行并行计算，并且具有容错性，即当由于节点故障而导致数据丢失时，可以通过RDD的血统信息重新计算出丢失的数据。错误日志中显示的关键信息是：TypeError: must be str, not int 这表在代码中尝试将字符串和整数相加，而 Python 不允许这种操作。2）在其中输入下面第一行的代码后，可以查看 RDD 类包含的功能方法。

2025-03-05 17:58:26 416

原创 spark大数据环境搭建

Spark是一个开源的分布式计算框架，最初在加州大学伯克利分校AMPLab开发。它提供了高效的数据处理能力，可以在大规模数据集上进行快速计算和分析。Spark支持多种编程语言，包括Java、Scala和Python，同时提供了丰富的API，使得用户可以方便地进行数据处理、机器学习、图计算等各种任务。Spark的主要特点包括内存计算、容错性、高性能和易用性，因此在大数据处理领域得到了广泛应用。

2025-02-26 20:50:17 1100 1

Gx_2647664843的博客