
spark实训
文章平均质量分 94
luog007
初学者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark实训5,spark RDD案例:统计每日新增用户
读取文件,得到RDD(二)倒排,互换RDD中元组的元素顺序(三)倒排后的RDD按键分组(四)取分组后的日期集合最小值,计数为1(五)按键计数,得到每日新增用户数(六)让输出结果按日期升序已知有以下用户访问历史数据,............原创 2022-06-20 16:32:10 · 1315 阅读 · 0 评论 -
Spark 实训04,Spark SQL案例:计算平均分
计算每个学生三科平均分原创 2022-06-20 11:53:11 · 304 阅读 · 0 评论 -
Spark 实训3,SQL案例:分组排行榜
目录1.任务目标2.准备工作3.新建Maven项目4.添加相关依赖和构建插件5.创建日志属性文件6.创建分组排行榜单例对象7.本地运行程序,查看结果编辑分组求TopN是大数据领域常见的需求,主要是根据数据的某一列进行分组,然后将分组后的每一组数据按照指定的列进行排序,最后取每一组的前N行数据。2.1启动集群的HDFS与Spark2.2编辑并上传grades.txt 到hdfs 创建项目将目录改成目录......原创 2022-06-17 20:09:53 · 236 阅读 · 0 评论 -
Spark 实训2,RDD案例:分组排行榜
目录1.准备工作2.新建Maven项目3.添加相关依赖和构建插件4.创建日志属性文件5.创建分组排行榜单例对象6.本地运行程序,查看结果编辑启动集群的HDFS与Spark编辑并上传grades.txt 到hdfs 将目录改成目录......原创 2022-06-17 17:03:43 · 294 阅读 · 0 评论 -
Spark 实训1,RDD案例:词频统计
目录1.准备工作1.1启动spark集群2.1编辑并上传word.txt文件2.创建项目2.1创建项目2.2修改文件夹名2.3配置依赖配置文件pom.xml2.4在资源文件夹里创建日指数型文件 - log4j.properties3.创建词频统计单例对象3.1在net.luog.rdd包里创建WordCount单例对象3.2本地运行程序,查看结果4.将词频统计应用打包上传到虚拟机然后查看HDFS上的结果文件打包在虚拟机上新建目录 删除HDFS上存放结果文件的目录 spark-submit --master原创 2022-06-17 16:48:19 · 1289 阅读 · 0 评论