
spark
文章平均质量分 89
忽儿
今年毕业
展开
-
实验手册 - 第8周DataFrame API/Spark SQL
以上述文件作为数据源,生成DataFrame,列名依次为:order_id, order_date, cust_id, order_status,列类型依次为:int, timestamp, int, string。根据(1)中DataFrame的order_date列,创建一个新列,该列数据是order_date距离今天的天数。找出(1)中DataFrame的order_id大于10,小于20的行,并通过show()方法显示。根据(1)中DataFrame, 分别统计2013年和2014年的订单数量。原创 2023-04-13 21:06:16 · 618 阅读 · 0 评论 -
实验手册 - 第7周Spark DataFrame
已知 scores = [(“Tom”, 89, 80, 77), (“Mike”, 68, 73, 90), (“Rose”, 88, 65, 70), (“Lucy”, 56, 75, 86)]根据(2)中DataFrame的name列以及其余3列的和,生成新的DataFrame,列名分别重命名为stuName和totalScores(用两种方法)选取(2)中DataFrame的name和spark_score列,生成新的DataFrame,并调用show()方法查看数据(用三种方法)原创 2023-04-13 20:37:40 · 625 阅读 · 0 评论 -
实验手册 - 第5周Pair RDD与分区
已知 scores = [(“Jim”, (“Hadoop”, 80)), (“Jack”, (“Hadoop”, 69)), (“Mike”, (“Hadoop”, 88)), (“Jackson”, (“Hadoop”, 69)),[(“张三”, “男”, “郑州”), (“李四”, “男”, “洛阳”), (“王五”, “男”, “许昌”), (“赵柳”, “女”, “开封”)]把分区个数设置为2, 且把将Key相同的数据放在同一个分区上。把分区个数设置为2,并再次查看各个分区上的数据。原创 2023-04-13 20:15:07 · 452 阅读 · 0 评论 -
实验手册 - 第4周Pair RDD
输出结果:[(791.0, 10524.17), (9371.0, 9299.03), (8766.0, 9296.14), (1657.0, 9223.71), (2641.0, 9130.92)]输出结果:[(‘DB’, 98), (‘Cloud’, 99), (‘PF’, 99), (‘MVC’, 99), (‘OOP’, 99), (‘DSA’, 99)]输出结果:[ (‘Lucy’, (‘Hadoop’, 98)), (‘Tom’, (‘NoSQL’, 90)) ]计算各位同学的成绩总和。原创 2023-04-13 20:03:13 · 241 阅读 · 0 评论 -
实验手册 - 第2周Spark RDD
通过findspark找到并导入pyspark创建SparkContext对象读取数据源,生成RDD对象(1)从内存读取数据源(2)从文件读取数据源sc.textFile(r’文件路径’)对RDD进行Tranformation操作对RDD进行Action操作。原创 2023-04-13 10:45:19 · 3938 阅读 · 0 评论 -
1 Spark的环境搭建
在spark的安装目录中的conf目录中,找到log4j.properties.template文件,并复制一份,然后将该副本重命名为log4j.properties。(2)在spark安装目录的\examples\src\main\python中,找到wordcount.py文件,复制到c盘跟目录。\1. 下载并安装Java8:https://www.oracle.com/java/technologies/downloads/(1)打开cmd,然后输入 pyspark,可以看到如下界面。原创 2023-04-11 08:02:05 · 433 阅读 · 0 评论 -
Spark 简介与原理
Spark 是一个大规模数据处理的统一分析引擎。具有迅速、通用、易用、支持多种资源管理器的特点。Spark生态系统Spark SQL是一种结构化的数据处理模块。它提供了一个称为Data Frame的编程抽象,也可以作为分布式SQL查询引擎。是一个Sprak API核心的一个存在可达到超高通量的扩展,并可处理实时数据流并容错。原创 2023-04-11 07:52:51 · 966 阅读 · 0 评论