- 博客(7)
- 收藏
- 关注
原创 4.8笔记
df.sort(df.age,df .score ,ascending=[1,0]).show() #1=True: 升序,0=False:降序 df.sort(df.age.asc(),df.score.desc()).show() #desc:降序,asc:升序。df.groupBy( 'gender' ).agg({'age ' : 'mean' ,'score' : 'max'}) .show() #agg()聚合操作,aggregate。
2025-04-08 15:42:55
318
原创 2025.4.1学习笔记
更新软件源并安装# 服务管理命令sudo systemctl start mysql # 启动服务sudo systemctl enable mysql # 设置开机自启sudo systemctl status mysql # 查看服务状态。
2025-04-01 20:00:00
499
原创 Spark数据处理实例
词频统计案例1.需求分析这个文件的数据是非结构化的,每行的单词个数是不固定的,也没有具体的含义。为了使用Spark SQL来处理它,第1步工作就是要将这个文件的数据转换成结构化的形式,由于我们真正关注的是各个单词,因此可以像以往那样将文件数据转换为RDD,然后经过一定的处理后将其转变为DataFrame,这样就可以由SparkSQL来处理2.SparkSQL编程实现首先将文件数据转换为rdd1,由于它是非结构化的数据,因此同样需要把每行包含的单词切解出来。
2025-03-26 21:10:07
366
原创 RDD转换行动操作
union合并数据intersection数据交集subtract数据减集groupBy分组数据groupByKey分组数据reduceByKey合并数据sortByKey排序数据keys和values操作mapValues和flatMapValues操作collect操作take操作。
2025-03-12 17:56:30
538
原创 RDD的创建和转换
RDD(Resilient Distributed Dataset)是Spark中最基本的数据结构,代表分布式的不可变的数据集。RDD可以在集群中进行并行计算,并且具有容错性,即当由于节点故障而导致数据丢失时,可以通过RDD的血统信息重新计算出丢失的数据。错误日志中显示的关键信息是:TypeError: must be str, not int 这表在代码中尝试将字符串和整数相加,而 Python 不允许这种操作。2)在其中输入下面第一行的代码后,可以查看 RDD 类包含的功能方法。
2025-03-05 17:58:26
416
原创 spark大数据环境搭建
Spark是一个开源的分布式计算框架,最初在加州大学伯克利分校AMPLab开发。它提供了高效的数据处理能力,可以在大规模数据集上进行快速计算和分析。Spark支持多种编程语言,包括Java、Scala和Python,同时提供了丰富的API,使得用户可以方便地进行数据处理、机器学习、图计算等各种任务。Spark的主要特点包括内存计算、容错性、高性能和易用性,因此在大数据处理领域得到了广泛应用。
2025-02-26 20:50:17
1100
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人