
Scala
文章平均质量分 90
Helltaker
这个作者很懒,什么都没留下…
展开
-
【考试真题】2020年7月份机试试卷
2020年7月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.3.创建 HBase 数据表(10 分)4.5.6.一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述这是一份来自于某在线考试系统的学员答题批改日志,日志中记录了日志生成时间,题目难度系原创 2021-01-22 17:26:33 · 690 阅读 · 1 评论 -
【考试真题】2020年9月份机试试卷
2020年9月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.使用 Spark一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU(Standard Product Unit,标准产品单元)数据,包含了外卖平台某地区一时原创 2021-01-22 17:05:47 · 595 阅读 · 1 评论 -
【考试真题】2020年10月份机试试卷
2020年10月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.数据清洗(40 分)3.用户行为分析(20 分)4.找出有价值的用户(30 分)一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11 至原创 2021-01-21 22:52:42 · 434 阅读 · 0 评论 -
【考试真题】2020年11月份机试试卷
2020年11月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.2.3.4.5.一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述countrydata.csv 是世界新冠疫情数,数据中记录了从疫情开始至 7 月 2 日,以国家为单位的每日新冠疫情感染人数的数据统计。字原创 2021-01-21 16:41:27 · 409 阅读 · 0 评论 -
【SPARK】知识点全讲解
SPARK知识点全讲解Spark环境部署Spark简介诞生与发展为什么使用SparkSpark优势Spark技术栈Spark架构设计Spark架构核心组件Spark交互工具Spark APISparkContextSparkSessionRDDDataSetDateFrameSpark环境部署前置条件:完成Scala环境部署可以参考我的博客:Scala环境部署和简单介绍然后我们在vmware虚拟机上配置Scala和Spark并初步使用Spark简介诞生与发展诞生于加州大学伯克利分校AMP实原创 2020-11-25 11:43:57 · 8044 阅读 · 3 评论 -
【Spark项目实战】使用spark分析日志文件(json格式)
使用spark分析日志文件准备阶段导包整合格式转入DataFrame分解第一层json列分解cm列分解et列分解kv列loadingadnotificationactive_backgroundcommentpraise准备阶段启动好spark-shell的虚拟机一份op.log文件,如下图所示:导包import spark.implicits._import org.apache.spark.sql.functions._import org.apache.spark.sql.types.原创 2020-11-20 12:16:05 · 1076 阅读 · 0 评论 -
【spark】算子:distinct union intersection subtract cartesian mapToPair flatMapToPair
算子:distinct union intersection subtract cartesian mapToPair flatMapToPairdistinct union intersection subtract cartesianjava版本scala版本mapToPair flatMapToPairmapToPaitdistinct union intersection subtract cartesianjava版本public class rddJava1 { public stati原创 2020-11-05 18:57:56 · 161 阅读 · 0 评论 -
【spark】算子:WordCount Rdd Map ActionRdd
算子:WordCount Rdd Map ActionRddWordCountMapRddActionRddJava版本filterparallelizeWordCountimport org.apache.spark.rdd.RDDimport org.apache.spark.{Partition, SparkConf, SparkContext}object wordcount { def main(args: Array[String]): Unit = { System.se原创 2020-11-04 20:01:30 · 231 阅读 · 0 评论 -
【Spark】初入门——使用IDEA实现WordCount
使用IDEA实现WordCount准备阶段主体代码块log4j日志文件修改准备阶段创建maven项目pom.xml需要修改和添加的部分:<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compile原创 2020-11-03 20:12:30 · 496 阅读 · 0 评论 -
在vmware虚拟机上配置Scala和Spark并初步使用
在虚拟机上配置Scala和Spark准备阶段安装包配置文件scala部分spark部分spark初体验准备阶段一台配置好Java环境的虚拟机scala-2.11.12.tgzspark-2.4.5-bin-hadoop2.6.tgz安装包将scala和spark的安装包导入虚拟机解压,移动到opt目录下(或自定义),并改名tar -zxvf scala-2.11.12.tgz -C /opt/tar -zxvf spark-2.4.5-bin-hadoop2.6.tgz -C /opt/原创 2020-10-30 14:57:34 · 3606 阅读 · 0 评论 -
Scala面向对象——随堂笔记
Scala OOP类类成员访问修饰符类的定义类的继承抽象类单例对象定义单例对象伴生特质混入特质 mixin动态混入特质特质与抽象类的选择内部类样例类类类通过class关键字定义类通过new关键字创建实例类拥有成员变量和方法类的成员默认为public,也支持private、protected类中无法定义静态成员变量和方法类无需明确定义构造方法,通过构造参数列表声明为类的一部分类成员访问修饰符类的定义构造器:主构造器,辅助构造器成员的变量和方法//主构造器执行类定义中的所有语句原创 2020-10-23 16:50:50 · 155 阅读 · 0 评论 -
Scala之数组Array的方法全面总结(含实例操作)
Scala Array的方法一些基本操作添加合并数值操作查询比较一些基本操作val numbers = Array(1, 2, 3, 4) //声明一个数组对象val first = numbers(0) // 读取第一个元素numbers(3) = 100 // 替换第四个元素为100val biggerNumbers = numbers.map(_*2) // 所有元素乘以2添加合并++val a = Array(1,2)val b = Array(3,4)val c = a ++原创 2020-10-22 19:19:05 · 5563 阅读 · 0 评论 -
Scala函数-随堂笔记(持续更新)
Scala函数Java LambdaScala函数定义函数调用参数传递命名参数参数缺省值参数个数未知匿名函数函数作参数函数作返回值课堂小测Java Lambda函数式接口:一种只含有一个抽象方法声明的接口可以使用匿名内部类实例化函数式接口的对象通过Lambda表达式可以进一步简化代码Lambda语法:(parameters) -> expression(parameters) -> { statements; }Scala函数定义def 函数名([参数列表]):[返回值原创 2020-10-20 14:30:58 · 218 阅读 · 0 评论 -
Scala入门-随堂笔记
这里写目录标题Scala简介Scala初体验安装及配置Scala验证scala安装插件HelloWorld实例Scala概述Scala变量与常量变量常量使用类型别名定义变量Scala数据类型原始数据类型数据类型层次结构字符串插值Scala条件控制条件语句的返回值Scala循环控制whilefor循环中断for循环过滤for循环返回值Scala数组Scala之Array的方法Scala简介Scala源自JavaScala构建在JVM之上Scala与Java兼容、互通Scala的优势多范式编程:面原创 2020-10-19 16:02:29 · 563 阅读 · 0 评论