通过sparkSql的分析学生成绩在全校、全区、全市的排名
最近在公司做了一个关于学生成绩的排名、因为数据量很大,导入mysql后跑不起来,因此用spark来做的。当然用hive也能做,将hdfs上的数据load到hive中然后使用sql语句进行查询,如果会编码的话不建议这么做,因为它的底层还是转换成mapreduce提交执行,效率不够高。
代码
pom依赖
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.2.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.2.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/log4j/log4j -->
<dependency>
<groupId>log4j</groupId>
<artifactId>log4j</artifactId>
<version>1.2.17</version>

这篇博客介绍了如何利用SparkSql对大规模学生成绩数据进行分析,从而得出学生在全校、全区、全市的排名。由于数据量大,不适合直接在MySQL中处理,作者选择了Spark进行高效计算。文中给出了具体的SparkSql代码示例,强调了相比Hive的效率优势。
最低0.47元/天 解锁文章
1223

被折叠的 条评论
为什么被折叠?



