
spark
文章平均质量分 90
Helltaker
这个作者很懒,什么都没留下…
展开
-
【考试真题】2020年7月份机试试卷
2020年7月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.3.创建 HBase 数据表(10 分)4.5.6.一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述这是一份来自于某在线考试系统的学员答题批改日志,日志中记录了日志生成时间,题目难度系原创 2021-01-22 17:26:33 · 690 阅读 · 1 评论 -
【考试真题】2020年9月份机试试卷
2020年9月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.使用 Spark一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU(Standard Product Unit,标准产品单元)数据,包含了外卖平台某地区一时原创 2021-01-22 17:05:47 · 595 阅读 · 1 评论 -
【考试真题】2020年10月份机试试卷
2020年10月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.数据清洗(40 分)3.用户行为分析(20 分)4.找出有价值的用户(30 分)一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11 至原创 2021-01-21 22:52:42 · 434 阅读 · 0 评论 -
【考试真题】2020年11月份机试试卷
2020年11月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.2.3.4.5.一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述countrydata.csv 是世界新冠疫情数,数据中记录了从疫情开始至 7 月 2 日,以国家为单位的每日新冠疫情感染人数的数据统计。字原创 2021-01-21 16:41:27 · 409 阅读 · 0 评论 -
【SPARK】知识点全讲解
SPARK知识点全讲解Spark环境部署Spark简介诞生与发展为什么使用SparkSpark优势Spark技术栈Spark架构设计Spark架构核心组件Spark交互工具Spark APISparkContextSparkSessionRDDDataSetDateFrameSpark环境部署前置条件:完成Scala环境部署可以参考我的博客:Scala环境部署和简单介绍然后我们在vmware虚拟机上配置Scala和Spark并初步使用Spark简介诞生与发展诞生于加州大学伯克利分校AMP实原创 2020-11-25 11:43:57 · 8044 阅读 · 3 评论 -
【Spark项目实战】使用spark分析日志文件(json格式)
使用spark分析日志文件准备阶段导包整合格式转入DataFrame分解第一层json列分解cm列分解et列分解kv列loadingadnotificationactive_backgroundcommentpraise准备阶段启动好spark-shell的虚拟机一份op.log文件,如下图所示:导包import spark.implicits._import org.apache.spark.sql.functions._import org.apache.spark.sql.types.原创 2020-11-20 12:16:05 · 1076 阅读 · 0 评论 -
【spark】算子:distinct union intersection subtract cartesian mapToPair flatMapToPair
算子:distinct union intersection subtract cartesian mapToPair flatMapToPairdistinct union intersection subtract cartesianjava版本scala版本mapToPair flatMapToPairmapToPaitdistinct union intersection subtract cartesianjava版本public class rddJava1 { public stati原创 2020-11-05 18:57:56 · 161 阅读 · 0 评论 -
【spark】算子:WordCount Rdd Map ActionRdd
算子:WordCount Rdd Map ActionRddWordCountMapRddActionRddJava版本filterparallelizeWordCountimport org.apache.spark.rdd.RDDimport org.apache.spark.{Partition, SparkConf, SparkContext}object wordcount { def main(args: Array[String]): Unit = { System.se原创 2020-11-04 20:01:30 · 231 阅读 · 0 评论 -
【Spark】初入门——使用IDEA实现WordCount
使用IDEA实现WordCount准备阶段主体代码块log4j日志文件修改准备阶段创建maven项目pom.xml需要修改和添加的部分:<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compile原创 2020-11-03 20:12:30 · 496 阅读 · 0 评论 -
在vmware虚拟机上配置Scala和Spark并初步使用
在虚拟机上配置Scala和Spark准备阶段安装包配置文件scala部分spark部分spark初体验准备阶段一台配置好Java环境的虚拟机scala-2.11.12.tgzspark-2.4.5-bin-hadoop2.6.tgz安装包将scala和spark的安装包导入虚拟机解压,移动到opt目录下(或自定义),并改名tar -zxvf scala-2.11.12.tgz -C /opt/tar -zxvf spark-2.4.5-bin-hadoop2.6.tgz -C /opt/原创 2020-10-30 14:57:34 · 3606 阅读 · 0 评论