- 博客(22)
- 收藏
- 关注
原创 音乐小程序项目
音乐播放列表和音乐状态数据:pages/index/index.jsid: 1, title: '钢琴协奏曲', singer: '肖邦',}…}],play: {…},
2022-12-14 15:41:34
1258
原创 Spark基础学习笔记:SparkSQL词频统计
(二)创建Maven项目 (三)添加依赖和构建插件 四)修改源目录名称将源目录名Java改成Scala 在pom.xml文件里,设置源目录 (五)创建日志属性文件 (六)创建词频统计单例对象创建net.py.wc包,在包里创建SparkSQLWordCount单例对象 (七)启动程序,查看结果...
2022-06-23 17:44:17
590
原创 Spark RDD案例:统计每日新增用户
目录一、提出任务二、实现思路三、完成任务(一)读取文件,得到RDD(三)倒排后的RDD按键分组(四)取分组后的日期集合最小值,计数为1(五)按键计数,得到每日新增用户数(六)让输出结果按日期升序 二、实现思路使用倒排索引法,若将用户名看作关键词,访问日期看作文档ID,则用户名与访问日期的映射关系如下图所示。 若同一个用户对应多个访问日期,则最小的日期为该用户的注册日期,即新增日期,其他日期为重复访问日期,不应统计在内。因此每个用户应该只计算用户访问的最小日期即可。如下图所示,将每个用户访问的
2022-06-23 17:31:15
155
原创 玩 Spring框架
目录一、Web开发技术二、Spring框架(一)Spring官网(二)Spring框架优点三、Spring容器演示(一)创建Maven项目(二)添加Spring依赖(三)创建杀龙任务类(四)创建勇敢骑士类(五)采用传统方式让勇敢骑士完成杀龙任务(六)采用Spring框架让勇敢骑士完成杀龙任务1、创建日志属性文件2、创建Spring配置文件3、在Spring配置文件里创建Bean4、创建新勇敢骑士测试类5、创建两个勇敢骑士Bean6、修改新勇敢骑士测试类(七)采用构造方法注入方式注入属性值1、创建救美任务类2
2022-06-23 17:23:01
111
原创 Spark RDD案例:词频统计
目录一、提出任务二、完成任务(一)新建Maven项目(二)添加相关依赖和构建插件(三)创建日志属性文件(四)创建词频统计单例对象(五)本地运行程序,查看结果(六)对于程序代码进行解析(七)将Spark项目编译和打包(八)将词频统计应用上传到虚拟机(九)在集群上执行词频统计应用一、pandas是什么?二、使用步骤1.引入库1.单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供2.的RDD算子可以更加轻松地实现单词计数。在IntelliJ IDEA中新建Mave
2022-06-23 16:58:12
524
原创 Spark Streaming概述
目录一,spark Streaming概述(一)什么是Spark streaming(二)Sparing Streaming的主要特点1,易于使用2,易于与Spark体系整合二,Spark Streaming工具原理(一)Spark Streaming工作流程图 (二)分段流 - DSteam (Discretized Stream)1,分段流的概念 2,分段流的实质 4,分段流的操作 (三)输入DStream与Receiver1,输入DStream与Receiver的关系2,本地运行Spark Strea
2022-06-20 19:42:33
802
原创 Spark SQL案例:分组排行榜
同一个学生有多门成绩,现需要计算每个学生分数最高的前3个成绩,期望输出结果如下所示 数据表执行查询 预备工作:启动集群的HDFS与Spark 将成绩文件-grades.txt上传到HDFS上/input目录Spark 1.5.x版本以后,在Spark SQL和DataFrame中引入了开窗函数,其中比较常用的开窗函数就是row_number(),该函数的作用是根据表中字段进行分组,然后根据表中的字段排序;其实就是根据其排序顺序,给组中的每条记录添加一个序号,且每组序号都是从1开始,可利用它这个特
2022-06-19 15:28:05
318
原创 Spark SQL数据源 - 基本操作
Spark SQL提供了两个常用的加载数据和写入数据的方法:方法和方法。方法可以加载外部数据源为一个DataFrame,方法可以将一个DataFrame写入指定的数据源。默认情况下,load()方法和save()方法只支持Parquet格式的文件,Parquet文件是以二进制方式存储数据的,因此不可以直接读取,文件中包括该文件的实际数据和Schema信息,也可以在配置文件中通过参数spark.sql.sources.default对默认文件格式进行更改。Spark SQL可以很容易地读取Parquet文件并
2022-06-18 18:00:06
1262
原创 Spark基础学习笔记:创建RDD
目录一、RDD为何物(一)RDD概念(二)RDD示例(三)RDD主要特征二、做好准备工作(一)准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS(二)启动Spark Shell1、启动Spark服务 2、启动Spark Shell三、创建RDD(一)从对象集合创建RDD1、利用parallelize()方法创建RDD2、利用makeRDD()方法创建RDD3、简单说明(二)从外部存储创建RDD1、读取本地系统文件课堂练习:给输出数据添加行号2、读取HDFS上的文件四,思维导图Spark
2022-06-18 11:11:58
234
原创 Spark基础学习笔记:Scala运算符
目录一、运算符等价于方法(一)运算符即方法(二)方法即运算符 1、单参方法2、多参方法 3、无参方法二、Scala运算符(一)运算符分类表(二)Scala与Java运算符比较三、运算符种类(一)中缀运算符(Infix Operator)(二)前缀运算符(Prefix Operator)(三)后缀运算符(Postfix Operator)四、运算符优先级(一)简单说明(二)运算优先级表 与 是等价的 与是等价的 Scala和Java运算符基本相同,不同之
2022-06-18 10:13:35
188
原创 Spark基础学习笔记:Scala变量与数据类型
目录一、变量声明 (一)简单说明(二)利用val声明变量1、声明方式2、案例演示(三)利用var声明变量1、声明方式2、案例演示(四)换行输入语句(续行)(五)同时声明多个变量(六)总结变量的声明 1、变量必须初始化2、定义变量可以不指定数据类型3、支持优先使用val(常量)4、语句不需要写结束符二、数据类型(一)Scala类型层次结构 AnyVal - Any ValueAnyRef - Any Reference 1,Any 2,AnyVal类型3、AnyRef类型4、案例演示(二)基本
2022-06-18 09:30:17
405
原创 Spark SQL案例:计算平均分
有多科成绩表,比如python.txt、spark.txt、django.txt,计算每个学生三科平均分Python成绩表 - 预备工作:启动集群的HDFS与Spark 在HDFS上新建目录我这里目录已经存在 在虚拟机上创建三个成绩文件 将三个成绩文件上传到HDFS的目录 查看三个成绩文件内容 单击【Finish】按钮 将目录改成目录(三)创建日志属性文件 在资源文件夹里创建日志属性文件 - (四)创建计算平均分单例对象 在包里创建单例对象..
2022-06-17 15:47:30
251
原创 Spring Boot + ECharts 案例演示
目录一,提出任务(1)班级数据(二)运行效果二,完成任务(一)创建数据库与表1,创建数据库2、创建数据表(二)创建Spring Boot项目(三)创建班级实体类(四)创建班级映射器接口(五)创建班级映射器配置文件(六)创建班级服务类(七)创建班级控制器(八)添加ECharts和jQuery脚本(九)添加Druid起步依赖(十)修改应用属性文件(十一)创建页面可视化数据(十二)启动应用,查看结果后端利用Spring Boot查询班级表数据,前端利用ECharts绘制各班人数柱形图执行上述命令 执行上述
2022-06-17 09:17:44
168
原创 Scala简介与安装
Scala编程语言抓住了很多开发者的眼球。如果你粗略浏览Scala的网站,你会觉得Scala是一种纯粹的面向对象编程语言,而又无缝地结合了命令式编程和函数式编程风格。Christopher Diggins认为:不太久之前编程语言还可以毫无疑意地归类成“命令式”或者“函数式”或者“面向对象”。Scala代表了一个新的语言品种,它抹平了这些人为划分的界限。根据David Rupp在博客中的说法,Scala可能是下一代Java。这么高的评价让人不禁想看看它到底是什么东西。Scala有几项关键特性表明了它的面向对象
2022-06-16 11:38:59
1951
原创 Spark运行时架构
目录一,Spark运行时架构二,YARN集群架构(一)YARN集群主要组件1、ResourceManager - 资源管理器2、NodeManager - 节点管理器3、Task - 任务4、Container - 容器5、ApplicationMaster - 应用程序管理器6,总结(二)YARN集群中应用程序的执行流程三、Spark Standalone架构(一)client提交方式(二)cluster提交方式四、Spark on YARN架构(一)client提交方式(二)cluster提
2022-06-16 09:36:10
1472
原创 搭建Spark集群
目录一,准备工作 (1)软件软件将hadoop、jdk和spark软件下载到本机。本机通过远程连接连接win7虚拟机。连接成功后直接复制软件粘贴到win7。 (2)利用SecureCRT登录四台虚拟机。 (3)设置免密登录 配置ip-主机名映射 生成公(4)安装lrzsz 三,安装jdk(1)在master上安装配置jdk(2)将master虚拟机上安装JDK以及环境配置文件发到节点 四,安装hadoop(1)上传......
2022-06-16 09:03:24
377
原创 初步了解Spark
目录一,大数据开发总体架构二,Spark简介三,Spark发展史四,Spark特点(一)快速(二)易用(三)通用(四)随处运行(五)代码简洁1,采用MR实现词频统计2,采用Spark实现词频统计五,Spark主要组件(一)Spark Core(二)Spark SQL(三)Spark Streaming(四)MLlib(五)GraphX六,Spark应用场景(一)腾讯 (二)Yahoo(三)淘宝(四)优酷土豆“Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines
2022-06-15 20:15:09
626
原创 利用SSM框架实现用户登录
目录一 SSM框架(一)什么是ssm框架(二)什么是spring框架(三)什么是spring MVC(四)什么是MyBatis框架二,利用ssm框架实现用户登录(一)创建数据库与表1,创建数据库 2,创建用户表 (三)添加相关依赖 (四)创建日志属性文件 (五)创建数据库配置属性文件 (六)给项目添加web功能 (七)配置Tomcat服务器 1、安装Tomcat服务器 2、启动Tomcat服务3、访问Tomcat主页 4, 项目配置Tomcat服务器 (八)创建用户实体类(九)创建用户映射器接口(十)创
2022-06-15 19:30:21
2903
原创 Spark RDD案例:分组排行榜
目录一,提出任务二、完成任务(一)新建Maven项目(二)添加相关依赖和构建插件(三)创建日志属性文件(四)创建分组排行榜单例对象(五)本地运行程序,查看结果(六)交互式操作查看中间结果1、读取成绩文件得到RDD 2、利用映射算子生成二元组构成的RDD3、按键分组得到新的二元组构成的RDD 预备工作:启动集群的HDFS与Spark 将成绩文件 - 上传到HDFS上目录 单击【Finish】按钮 将目录改成目录(三)创建日志属性文件 在资源文件夹里创建日指数型文件 -
2022-06-15 19:25:06
234
原创 在OpenStack私有云上创建与配置虚拟机
访问http://192.168.176.250,显示登录页面,输入管理员的用户名和密码登录成功,默认显示“项目 - 计算 - 概览”同理再添加四个固定IP地址的端口:ubuntu_port、master_port、slave1_port、slave2_portwin7节点,外网地址:192.168.177.70,可以通过该地址进行远程桌面连接;内网私有地址:192.168.1.99ubuntu节点,外网地址:192.168.177.70,可以通过该地址进行远程桌面连接;内网私有地址:
2022-06-15 11:28:42
691
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人