Spark项目学习-慕课网日志分析-days3-DataFrame&Dataset

最新推荐文章于 2024-04-21 08:21:55 发布

原创最新推荐文章于 2024-04-21 08:21:55 发布 · 5.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

Spark 专栏收录该内容

18 篇文章

订阅专栏

本文深入探讨了Spark中的DataFrame概念，对比了其与RDD的区别，详细介绍了DataFrame的基本API操作，包括打印Schema、显示数据、选择特定列、过滤数据、分组聚合、排序以及表连接等。此外，还讲解了DataFrame与RDD之间的互操作方式，以及如何使用Spark解析CSV文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.DataFrame

1）不是Spark SQL提出的，而是早期在R，Pandas中产生的

2）DataFrame是一个以列（列名、列的类型、列值）的形式构成的分布式的数据集，按照列赋予不同的名称

3）是关系型数据库中的一张表或者是R/Python中的一个dataframe概念，但是具有更多优化

2.DataFrame对比RDD（DataFrame能够具有更多信息）

RDD：

java/scala ==> jvm

python ==> python runtime

DataFrame:

java/scala/python ==> Logic Plan 不同语言编程效果一样

3.DataFrame基本API常用操作

1）peopleDF.printSchema 打印Schema信息

2）peopleDF.show(100) 输出前100条记录

3）peopleDF.select("name").show() 只查询name字段的记录

peopleDF.select(peopleDF.col("name"),(peopleDF.col("age")+10).as("age2")).show() 查询某几列所有的数据，并且把数据都+10

4）peopleDF.filter(peopleDF.col("age">19).show() 对某一列的值进行过滤

studentDF.filter("substring(name,0,1)='M'").show 通过SubString函数将首字母为M的名字展示出来

5）peopleDF.groupBy("age").count().show() 根据某一列进行分组再进行聚合操作

6）peopleDF.sort(peopleDF("name").asc,peopleDF("id").desc).show 排序按名字升序，按id降序

7）peopleDF.join(peopleDF2,peopleDF.col("id")===peopleDF2.col("id")).show join表连接操作

4.DataFrame和RDD的互操作

1）使用反射机制，将RDD转换为DataFrame，使用反射

5.DataFrame API操作案例实战（学生信息统计案例）

6.Dataset概述及使用

1）Dataset是一个分布式的数据集，强类型，支持lambda公式，提供优化引擎，可以在Java和Scala里面使用

2）spark如何解析csv文件

val df = spark.read.option("header","true").option("inferScheme","true").csv(path)

df.show()

3）导入隐式转换：import spark.implicits._

4）Dataset概述：静态类型和运行时类型安全，nengg

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。