
spark
文章平均质量分 60
lambda-小张
代码人代码魂
展开
-
SparkSQL的编程题
数据如下: 代码: (2)使用编程方式定义RDD模式,提取月、市、区县、品牌、车辆类型、使用性质和数量7列,并定义相应Schema; (3)将(2)的结果以json格式保存至HDFS; (4)读取该json文件,构建DataFrame; (5)在DataFrame中使用SQL语句实现如下查询: ① 统计各汽车品牌的销量,并按销量从高到低排序; ② 统计各月各汽车品牌的销量; ③ 统计各市的汽车销量,并按销量原创 2022-06-30 11:40:14 · 974 阅读 · 1 评论 -
IDEA 开发 SparkSQL
二、代码1.数据准备创建person.json文件2.创建SparkSQL程序的SQL风格语法运行结果:3.创建SparkSQL程序的DSL风格语法运行结果:4.RDD转换DataFrame运行结果:5.DataFrame转换DataSet运行结果:6.DataFrame转换RDD运行结果:7.RDD转换DataSet运行结果:...原创 2022-06-27 18:52:04 · 696 阅读 · 0 评论 -
Spark编程题
代码:运行结果:2.统计日志中同一时间出现多少次日志日志log.txt的数据代码:运行结果:3.完成统计相同字母组成的单词text01.txt的数据代码:运行结果:4.使用Spark完成单词去重text02.txt的数据代码:运行结果:5.使用Spark统计2005年1月和2月的平均气温值text03.txt的数据代码:运行结果:6.使用Spark统计137 138 139开头的总流量 text04.tx原创 2022-06-26 15:44:17 · 1328 阅读 · 0 评论 -
Spark RDD 行动算子
1.reduce代码: 2.collect代码: 3.count代码: 4.first代码: 5.take代码: 6.takeOrdered代码: 7.aggregate代码: 8.fold代码: 9.countByKey代码: 10.save 相关算子 11.foreach原创 2022-06-25 14:34:28 · 422 阅读 · 0 评论 -
Spark RDD 转换算子
代码:2.mapPartitions代码: 3.map 和 mapPartitions 的区别?4.mapPartitionsWithIndex代码: 5.flatMap代码: 6.glom代码: 7.groupBy代码: 8.filter代码:9.sample 代码:10.distinct代码: 11.coalesce代码:12.repartition代原创 2022-06-25 11:36:52 · 244 阅读 · 0 评论 -
Spark Core之RDD
1.从集合中创建代码:运行结果:2.从外部存储系统的数据集创建由外部存储系统的数据集创建RDD包括:本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、HBase等1)数据准备在新建的SparkCoreTest1项目名称上右键=》新建input文件夹=》在input文件夹上右键=》分别新建1.txt和2.txt。每个文件里面准备一些word单词。2)创建RDD3.从其他RDD创建主要是通过一个RDD运算完后,再产生新的RDD。...原创 2022-06-24 19:40:44 · 334 阅读 · 0 评论 -
Spark简介
Spark 确实会比 MapReduce 更有优势。但是 Spark 是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会 由于内存资源不够导致 Job 执行失败,此时,MapReduce 其实是一个更好的选择,所以 Spark 并不能完全替代 MR。......原创 2022-06-24 16:37:48 · 284 阅读 · 0 评论 -
Spark案例之WordCount
目录IntelliJ IDEA一、编写WordCount程序1.创建一个Maven项目WordCount并导入依赖2.编写代码3.打包插件4.创建数据,打包完,导入包5.集群测试(在包的路径下输入)hdfs的方式:本地方式:6.查看结果 二、远程调用Spark1.启动Spark下的start-all.sh Jps查看进程:2.导入依赖 3.编写代码4.打包5.在把代码加到创建sparkConf的后面原代码修改后,加上包的路径6.运行输出2.编写代码3.打包插件4.创建数据,打包完,原创 2022-06-08 21:15:27 · 1517 阅读 · 0 评论