- 博客(27)
- 收藏
- 关注
原创 大数据实时处理期末总结
大数据实时处理是一门非常重要的课程,它主要涉及到实时数据处理、流计算、分布式系统、消息队列等方面的内容。在这门课程中,我们学习了很多有用的知识和技能,以下是我对这门课程的期末总结:实时数据处理:在这门课程中,我们学习了如何处理实时数据。我们了解了常见的实时数据处理框架和技术,例如Storm、Spark Streaming等。我们还学习了如何设计实时数据处理系统,包括数据采集、数据处理、数据存储等方面的内容。流计算:流计算是实时数据处理的核心技术之一。在这门课程中,我们学习了流计算的基本概念和原理。
2023-06-16 15:21:43
270
原创 Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。DataFrame是Spark SQL提供的一个编程抽象,与RDD类似,也是一个分布式的数据集合,但与RDD不同,DataFrame的数据都被组织到有名字的列中,就像关系型数据库中的表一样。
2023-05-22 09:15:54
291
原创 Spark大数据处理讲课笔记3.6 RDD容错机制
语句,关闭了Spark容器,缓存的数据就被清除了,当然也无法访问Spark的存储数据。中执行,因此输出结果不正确。
2023-05-11 10:42:02
150
原创 Spark大数据处理讲课笔记3.5 RDD持久化机制
若RDD3没有持久化保存,则每次对RDD3进行操作时都需要从textFile()开始计算,将文件数据转化为RDD1,再转化为RDD2,最终才得到RDD3。上述操作说明,调用RDD的persist()方法只是将该RDD标记为持久化,当执行行动操作时才会对标记为持久化的RDD进行持久化操作。计算RDD4,就是基于RDD3缓存的数据开始计算,不用从头到尾跑一趟。计算RDD5,就是基于RDD3缓存的数据开始计算,不用从头到尾跑一趟。的存储信息,该RDD的存储级别为。的存储信息,该RDD的存储级别为。
2023-05-11 09:01:58
234
原创 Spark大数据处理讲课笔记3.2 掌握RDD算子
任务1、利用过滤算子输出[2000, 2500]之间的全部闰年。,如果关系表达式计算结果为真,那么该元素就丢进新RDD -因为RDD的元素为分布式的,数据可能分布在不同的节点上。基于列表创建RDD,然后利用过滤算子得到偶数构成的新RDD。任务2、利用过滤算子输出[10, 100]之间的全部素数。Spark会将RDD中的每个元素传入该函数的参数中。方法二、用神奇占位符改写传入过滤算子的匿名函数。为函数的参数名称,也可以使用其他字符,例如。内容,可以采用遍历算子,分行输出内容。
2023-04-20 11:50:06
193
原创 Spark大数据处理讲课笔记2.2 搭建Spark开发环境
转化操作会由一个RDD 生成一个新的RDD。另一方面,行动操作会对RDD 计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统(如HDFS)中。:Spark 3.3.2使用的Scala版本其实是2.12.15。创建出来后,RDD 支持两种类型的操作: 转化操作(计算1 + 2 + 3 + ……例2、调用转化操作filter()利用print函数输出了一条信息。例3、调用行动操作first()就会报错,目前没有解决问题。在pyspark里完成。例1、创建一个RDD。
2023-04-01 11:46:08
333
原创 Spark大数据处理讲课笔记1.8 掌握Scala函数
函数其实是一段具有特定功能的代码的集合,由函数修饰符、函数名、函数参数列表、函数返回值声明与函数体组成。
2023-04-01 08:32:59
173
原创 大数据处理学习笔记1.7 掌握Scala类、对象、抽象类与特质
对象是类的具体实例,类是抽象的,不占用内存,而对象是具体的,占用存储空间。面向对象三大特性之一:封装(encapsulation) - 封装数据和操作Scala中一个简单的类定义是使用关键字class,类名首字母必须大写。类中的方法用关键字def定义创建net.huawei.day04包,在包里创建User类,包含三个私有属性和一个公共方法/*** 功能:用户类* 作者:zyf* 日期:2023年03月日*/private var name = "张三丰"
2023-03-27 09:49:37
181
原创 Sparke入门
(三)Scala特性在很多地方Scala都很像Java,也是静态类型语言,但是比Java更为函数式编程,这句话主要从三句话就可以理解“一切都是对象”,“一切都是函数”以及“一切都是表达式”三方面理解。1、一切都是对象Scala里一切都是对象,这大概和Python很像,因为即便是数字1都有一系列的方法,所以我们可以调用1.toDouble将Int类型的1转换为Double类型的1。
2023-02-16 10:50:44
439
2
原创 hdfs的shell基本操作
服务器每天会产生大量日志数据,并且日志文件可能存在于每个应用程序指定的data目录中,在不使用其它工具的情况下,将服务器中的日志文件规范的存放在HDFS中。为了模拟生产环境,在日志存放目录/export/data/logs/log/中,手动创建日志文件,access.log表示正在源源不断的产生日志的文件,access.log.1、access.log.2等表示已经滚动完毕的日志文件,即为待上传日志文件。上传文件的过程就是遍历文件目录的过程,将文件首先移动到待上传目录,再从待上传目录中上传到HDFS中。
2022-11-11 14:00:00
443
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人