- 博客(42)
- 收藏
- 关注
原创 Spark大数据处理--期末总结
大数据实时处理是一门非常重要的课程,它主要涉及到实时数据处理、流计算、分布式系统、消息队列等方面的内容。在这门课程中,我们学习了很多有用的知识和技能,以下是我对这门课程的期末总结:实时数据处理:在这门课程中,我们学习了如何处理实时数据。我们了解了常见的实时数据处理框架和技术,例如Storm、Spark Streaming等。我们还学习了如何设计实时数据处理系统,包括数据采集、数据处理、数据存储等方面的内容。流计算:流计算是实时数据处理的核心技术之一。在这门课程中,我们学习了流计算的基本概念和原理。
2023-06-09 15:55:09
1232
原创 Spark大数据处理讲课笔记---Spark RDD典型案例
(5)对rdd按键归约得到rdd1,计算总分。(4)取分组后的日期集合最小值,计数为1。(2)利用映射算子生成二元组构成的RDD。(3)按键分组得到新的二元组构成的RDD。(2)倒排,互换RDD中元组的元素顺序。(3)利用RDD填充二元组成绩列表。(4)基于二元组成绩列表创建RDD。(1)读取成绩文件,生成RDD。(3)倒排后的RDD按键分组。(1)读取成绩文件得到RDD。(1)读取文件,得到RDD。(2)创建统计新增用户对象。(2)定义二元组成绩列表。(3)运行程序,查看结果。(3)运行程序,查看结果。
2023-05-23 11:29:20
592
原创 Spark大数据处理讲课笔记---RDD容错机制
上述代码使用broadcast()方法向集群发送(广播)了一个只读变量,该方法只发送一次,并返回一个广播变量broadcastVar,该变量是一个org.apache.spark.broadcast.Broadcast对象。Broadcast对象是只读的,缓存在集群的每个Worker节点中。,因为Spark会单独启动一个任务将标记为检查点的RDD的数据写入文件系统,如果RDD的数据已经持久化到了内存,将直接从内存中读取数据,然后进行写入,提高数据写入效率,否则需要重复计算一遍RDD的数据。
2023-05-23 10:53:08
1106
原创 Spark大数据处理讲课笔记--- RDD持久化机制
若RDD3没有持久化保存,则每次对RDD3进行操作时都需要从textFile()开始计算,将文件数据转化为RDD1,再转化为RDD2,最终才得到RDD3。Spark会自动监视每个节点上的缓存使用情况,并以最近最少使用的方式从缓存中删除旧的分区数据。如果希望手动删除RDD,而不是等待该RDD被Spark自动从缓存中删除,那么可以使用RDD的。上述操作说明,调用RDD的persist()方法只是将该RDD标记为持久化,当执行行动操作时才会对标记为持久化的RDD进行持久化操作。在上图中,对RDD3进行了两次。
2023-05-23 10:40:14
688
原创 掌握RDD分区
在有些情况下,使用Spark自带的分区器满足不了特定的需求。例如,某学生有以下3科三个月的月考成绩数据。现需要将每一科成绩单独分配到一个分区中,然后将3科成绩输出到HDFS的指定目录(每个分区对应一个结果文件),此时就需要对数据进行自定义分区。
2023-05-18 11:43:51
408
原创 搭建Spark开发环境
由于Spark仅仅是一种计算框架,不负责数据的存储和管理,因此,通常都会将Spark和Hadoop进行统一部署,由Hadoop中的、HBase等组件负责数据的存储管理,Spark负责数据计算。安装Spark集群前,需要安装Hadoop环境。
2023-05-18 10:22:54
1603
原创 掌握Scala函数
如果在函数定义时,如果用到了上下文中的变量,则函数的具体执行将会和该变量的值具有了相关性,即这个函数包含了外部该变量的引用,这个过程称之为函数的闭包。这种情况下,变量值的变化将会影响函数的执行,同样函数执行的过程中改变了变量的值,也会影响其他位置对变量的使用。甚至在一些极端情况下,变量所在的环境已经被释放,但是由于函数中包含对它的引用,变量依然会存在,阻止了对象的释放,造成内存泄露的问题。使用下划线时,如果类型可以自动推断出,则不用声明类型,如果无法自动推断类型,则在下划线后自己来显式声明类型即可。
2023-05-18 09:45:10
310
原创 掌握Scala类、对象、抽象类与特质
对象是类的具体实例,类是抽象的,不占用内存,而对象是具体的,占用存储空间。面向对象三大特性之一:封装(encapsulation) - 封装数据和操作Scala中一个简单的类定义是使用关键字class,类名首字母必须大写。类中的方法用关键字def定义创建包,在包里创建User类,包含三个私有属性和一个公共方法private var name = "张三"private var gender = "男"
2023-05-18 09:23:38
100
原创 掌握Scala数据结构
(1)定义数组时初始化数据数组的静态初始化自动推断数组类型手动指定数据类型(2)定义时指定数组长度,后赋值先定义,后赋值,这叫数组的动态初始化避免数组下标越界错误(数据溢出:Data Overflow)变长数组使用类进行定义定义一个变长Int类型数组arr,利用+=运算符、append方法添加一个数组元素(注意是追加元素),还可以利用appendAll方法添加一个数组(多个元素)
2023-05-11 10:50:17
299
5
原创 大数据实时处理--半期总结
7.之前一直不太明白Hadoop和JAVA的交集在哪里,通过这次的学习知道了Hadoop是通过调用JAVA的API对数据进行相应的操作,也就是说在Hadoop的学习中对JAVA水平的要求也是比较高的。大二下学期倒数两个月,就要开启我的大三生活,面临找工作,社会人际,感觉前路是一片迷雾,想的是现掌握的知识够不够我找到对口的工作,对口的工作需要什么样的人才,敲门砖有什么......这学期开设的课叫大数据实时处理,还是用的虚拟机和idea,是上学期配置的,只是运用了scala语言,还有spark框架。
2023-05-11 09:22:58
240
原创 Spark大数据处理——掌握Scala内建控制结构
Scala中继承了Java的异常机制,提供了程序中产生意外情况时处理的机制,抛出异常的过程和Java中基本一致,通过throw,一旦抛出可以当场捕获处理或接着向上抛,捕获异常是通过来实现的。
2023-04-22 11:13:12
205
原创 Spark大数据处理-掌握Scala运算符
注:如果运算符以=结尾,且运算符并非比较运算符 =、==或=,则运算符优先级等同于=,即优先级最低,例如+=、-=等;由于Scala并没有真正的运算符,运算符其实是方法的一种形式,所以此处运算符的优先级,其实就是指方法的优先级。在Scala中方法的执行是有优先级的区别的,这也是为了解决传统运算符优先级问题。如果是复杂数据类型,比较的是对象的地址,如果不是想比较地址而是想比较真正的内容,则需要使用。,前缀运算符如同中缀运算符一样,也是方法调用的另一种方式,不同的是,方法名要在符号前加上前缀。
2023-04-14 11:34:08
87
原创 使用Scala集成开发环境
1.会搭建Scala的IntelliJ IDEA开发环境2.会在集成开发环境里创建Scala项目在前面,我们都是利用Scala Shell交互式环境来学习Scala基础知识,虽然交互式有快捷的优点,但是要写比较完整的程序,编辑就显得极为不便,为了提高开发效率,我们要学会使用Scala的集成开发环境 - IntelliJ IDE。
2023-04-14 10:42:22
127
原创 大数据可视化-echarts仪表盘(单个仪表盘),使用HBuilderX
echarts.js 下载链接: http://echarts.baidu.com/download.html。也可以下载 echarts.js 在页面文件中引入即可.引入 ECharts 文件可以用上面代码中的方法。想要使用该图表,只需要 复制以上代码。
2023-04-01 17:35:37
718
原创 大数据可视化-echarts桑基图(HBuilderX)
echarts.js 下载链接: http://echarts.baidu.com/download.html。也可以下载 echarts.js 在页面文件中引入即可.引入 ECharts 文件可以用上面代码中的方法。想要使用该图表,只需要 复制以上代码。
2023-04-01 17:32:41
346
原创 大数据可视化-echarts桑基图(HBuilderX)
echarts.js 下载链接: http://echarts.baidu.com/download.html。也可以下载 echarts.js 在页面文件中引入即可.引入 ECharts 文件可以用上面代码中的方法。想要使用该图表,只需要 复制以上代码。
2023-04-01 17:31:09
301
原创 大数据可视化-echarts玫瑰图(HBuilderX)
echarts.js 下载链接: http://echarts.baidu.com/download.html。也可以下载 echarts.js 在页面文件中引入即可.引入 ECharts 文件可以用上面代码中的方法。想要使用该图表,只需要 复制以上代码。
2023-04-01 17:29:44
271
原创 大数据可视化-echarts玫瑰图(HBuilderX)
echarts.js 下载链接: http://echarts.baidu.com/download.html。也可以下载 echarts.js 在页面文件中引入即可.引入 ECharts 文件可以用上面代码中的方法。想要使用该图表,只需要 复制以上代码。
2023-04-01 17:20:42
1041
原创 ECharts折线图
echarts.js 下载链接: http://echarts.baidu.com/download.html。也可以下载 echarts.js 在页面文件中引入即可.引入 ECharts 文件可以用上面代码中的方法。想要使用该图表,只需要 复制以上代码。
2023-04-01 17:17:09
73
原创 Scala变量与数据类型
一、变量声明(一)简单说明(二)利用val声明变量1、声明方式2、案例演示(三)利用var声明变量1、声明方式2、案例演示(四)换行输入语句(续行)(五)同时声明多个变量(六)总结变量的声明1、变量必须初始化2、定义变量可以不指定数据类型3、鼓励优先使用val(常量)4、语句不需要写结束符二、数据类型(一)Scala类型层次结构1、Any类型2、AnyVal类型3、AnyRef类型4、案例演示(二)基本数据类型1、基本类型表2、简要说明3、基本类型的富包装器
2023-04-01 15:51:35
250
原创 Shell定时采集数据到HDFS
通过编写简单的Shell脚本,用于每天自动采集服务器上的日志文件,并将海量的日志上传至HDFS中。#将待上传的文件path写入一个列表文件willDoing,#读列表文件willDoing_COPY_的内容(一个一个的待上传文件名)#此处的line 就是列表中的一个待上传文件的path。等表示已经滚动完毕的日志文件,即为待上传日志文件。#读取日志文件的目录,判断是否有需要上传的文件。#待上传文件存放的目录,需手动创建。表示正在源源不断的产生日志的文件,#日志文件存放的目录,需手动创建。
2022-11-18 09:29:01
1337
原创 SSH免密登陆功能配置
master虚拟机免密登录master虚拟机执行命令:ssh-keygen -t rsa,连续敲三个回车,生成密钥对执行命令:ssh-copy-id root@master,将公钥拷贝到master测试master虚拟机是否免密登录master虚拟机master虚拟机免密登录slave1虚拟机执行命令:ssh-copy-id root@slave1,将公钥拷贝到slave1测试master虚拟机是否能免密登录slave1虚拟机master虚拟机免密登录slave2虚拟机
2022-11-11 09:14:23
1946
原创 Linux目录操作
权限操作首先root用户创建新文件love.txt (echo是输出命令,默认是输出到屏幕;>是重定向命令),然后将其用户组改为lzy用户组(在前面的博客中曾创建了lzy用户组),执行命令:chgrp lzy love.txt(love.txt→ \rightarrow→lzy)最后查看文件love.txt的用户及用户组命令是ll love.txt修改文件所有者将root用户所建文件love.txt的所有者改变成alice执行命令:chow
2022-10-20 19:47:34
906
1
原创 Linux用户操作
根据我之前的内容,我们要打开虚拟机和FinaShell,在FinaShell上进行操作ps:图是去老师那儿拿的,这次不是自己画的,变懒了我们主要做增删查改在ied里我们登陆root用户,显示连接成功root用户切换到普通用户,无须输入密码,但是由普通用户切换到root用户或其它用户,就需要输入密码切换用户:su 用户名我的用户建立的叫chen,这里的是yang(因为图也是我拿的,自己没截图)我直接用的配置好的映像盘,所以这里我没有普通用户,需要重新弄一个普通用户
2022-10-07 13:57:45
424
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人