自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 收藏
  • 关注

原创 Hadoop中的序列化和反序列化

序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。二、为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。通过序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。

2025-04-18 02:30:00 303

原创 Yarn概述

通过为每个组织分配专门的队列,然后再为每个队列分配一定的集群资源, 这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。队列内部又可以垂直划分,这样一个组织内部的多个成员就可以共享这个队列资源了,在一个队列内部,资源的调度是采用的是先进先出(FIFO)策略。但是实际中,资源是有限的,并且在繁忙的群集上, 应用程序通常将需要等待其某些请求得到满足。现在,如果B用户在其他作业仍在运行时开始第二个作业,它将与B的另一个作业共享其资源,因此B的每个作业将拥有资源的四分之一,而A的继续将拥有一半的资源。

2025-04-16 16:05:20 936

原创 如何配置HADOOP_HOME环境变量

之前我们已经搭建好了hadoop集群,并测试了它的文件管理和程序运行等相关命令。这些都是理论示范,在真实的开发中,我们是通过使用java程序来与集群进行交互的。双击winutils.exe 如果报如下错误说明缺少微软运行库,这个问题可以通过在:资料包里面有对应的微软运行库安装包双击安装来解决。hadoop集群我们配置好了,要与它进行交互,我们还需要准备hadoop的客户端。1. 找到资料包路径下的Windows依赖文件夹,拷贝hadoop-3.1.0到非中文路径(比如d:\hadoop-3.1.0)

2025-04-15 09:00:03 206

原创 Spark中Maven的用法

在IDEA中去创建项目,并编写java代码来操作集群中的文件1.IDEA 中创建 Maven 项目步骤一:点击 File -> New -> Project,在弹出的窗口左侧选择 Maven,点击 Next:步骤二:填写项目的 GroupId、ArtifactId、Version 等信息(这些对应 pom.xml 中的关键配置),点击 Next。步骤三:确认项目配置信息无误后,点击 Finish,IDEA 会自动生成 Maven 项目结构。

2025-04-15 08:52:17 504

原创 关于流量统计那些事

我们现在有一个目录data下保持了一些日志文件,文件的内容格式如下需求统计每一个手机号耗费的总上行流量、总下行流量、总流量。

2025-04-15 08:42:30 870

原创 配置Hadoop集群-免密登录

前面的课程中我们在虚拟机上安装并测试使用了hadoop的示例程序wordcount,并且在准备好了集群的同步工具,那接下来,我们就可去配置hadoop集群了。将公钥拷贝到hadoop101上。所以,对于hadoop100来说,它要生成公钥,并拷贝到hadoop100, hadoop101, hadoop102上去。我们希望达成的目标是:希望用户在hadoop100登录到hadoop101时,hadoop101不需要输入密码。在hadoop100中,把自己的公钥传递给hadoop101,hadoop102。

2025-04-03 11:30:00 272

原创 配置Hadoop集群-配置历史和日志服务

echo " --------------- 启动 historyserver ---------------"echo " --------------- 关闭 historyserver ---------------"echo " --------------- 启动 hdfs ---------------"echo " --------------- 启动 yarn ---------------"echo " --------------- 关闭 yarn ---------------"

2025-04-02 15:51:33 686

原创 一分钟教会你数据清洗

利用工具的去重功能,Excel 中可通过 “删除重复项” 按钮,pandas 中使用drop_duplicates()函数,一键就能删除这些重复数据,保证数据的唯一性。数据格式不一致也很麻烦。如员工薪资,有的以 “元” 为单位,有的以 “万元” 为单位。在数据的世界里,原始数据就如同未经雕琢的璞玉,往往夹杂着杂质,而数据清洗便是去除这些杂质,让数据闪耀光芒的关键步骤。别担心,接下来,只需一分钟,就能初步掌握数据清洗的奥秘。经过这几步,原本杂乱的数据就会变得整洁有序,为后续的数据分析和挖掘工作打下坚实基础。

2025-04-02 15:47:58 145

原创 mapreduce的工作原理

例如,在单词计数的例子中,输入文本被分割成单词,每个单词作为键,值为 1,表示出现一次。归约操作:每个 Reduce 任务会接收来自不同 Map 任务的相同键的中间结果,Reduce 函数会对这些结果进行合并和处理,最终生成最终的输出结果 <output_key, output_value>。MapReduce 主要由两个阶段组成:Map 阶段和 Reduce 阶段,此外还有一些辅助步骤,整体流程包括输入数据、Map 任务、Shuffle 和 Sort(洗牌与排序)、Reduce 任务、输出结果。

2025-04-02 15:45:14 430

原创 教你快速配置host

hosts 文件是一个本地的文本文件,它的作用是将主机名(www.douyin.com)映射到对应的 IP 地址,在 DNS(域名系统)解析之前,系统会先查询 hosts 文件来确定目标主机的 IP 地址。在记事本中选择 “文件” -> “打开”,在 “文件类型” 中选择 “所有文件”,定位到 C:\Windows\System32\drivers\etc 目录,选择 hosts 文件并打开。在系统窗口中,点击 “更改设置”,在弹出的 “系统属性” 窗口中,切换到 “计算机名” 选项卡。

2025-04-02 15:43:10 350

原创 如何进行虚拟机IP配置

VirtualBox 提供了多种网络连接模式,常见的有桥接网卡、NAT 和仅主机(Host - Only)网络。VMware Workstation 提供了三种常见的网络连接模式:桥接模式、NAT 模式和仅主机模式。以上步骤可帮助你完成虚拟机的 IP 配置,根据实际需求选择合适的网络连接模式和 IP 配置方式。

2025-03-03 19:20:21 581

原创 指南针!!!vi编辑器使用教程已奉上,请快速查收!!!!

vi 编辑器是一款经典且强大的文本编辑器,广泛应用于 Unix 和类 Unix 系统(如 Linux)中。下面将从启动、不同模式下的常用操作以及多文件操作等方面详细介绍其使用方法。

2025-02-25 11:16:40 392

原创 虚拟机安装教程

在VMware Workstation 17 Pro的菜单栏中,选择“虚拟机” -> “设置” -> “CD/DVD(SATA)” -> “使用ISO映像文件”,然后选择你的操作系统ISO镜像文件。创建新的虚拟机: 在VMware Workstation 17 Pro的主界面,点击“创建新的虚拟机”按钮。启动虚拟机: 在VMware Workstation 17 Pro的主界面,选择你刚刚创建的虚拟机,然后点击“编辑虚拟机”按钮。选择安装方法: 选择“稍后安装操作系统”选项,然后点击“下一步”。

2025-02-25 10:44:33 275

原创 部分Linux命令

03 cd[目录名] changge directory 切换文件夹。04 touch[文件名] touch 如果文件不存在,新建文件。

2025-02-25 10:42:29 149

原创 Spark大数据分析

Spark 的应对:分布式计算:Spark 将数据分布在集群的多个节点上,并行处理大规模数据。内存计算:Spark 将数据存储在内存中,减少了磁盘 I/O 的开销,显著提高了处理速度。弹性扩展:Spark 可以在数千台节点的集群上运行,支持处理 PB 级别的数据。Spark 的应对:Spark Streaming:Spark 提供了流处理模块,能够实时处理数据流。

2025-02-18 11:37:00 434

原创 Scala函数的字面量语法

Scala的函数字面量语法 Scala的函数字面量语法为: (参数列表) => {方法体} 与 定义函数 的语法相比,它省略了def关键字、函数名以及函数的返回类型。在Scala的函数字面量的定义中直接把参数列表与方法体通过=>相连。例如定义一个函数字面量对输入变量加1并返回,即 (x:Int)-=> {x+1}。由于Scala的函数字面量没有定义函数名,所以又把这种函数字面量称为匿名函数。函数字面量使用箭头符号 => 来分隔参数列表与函数体。Scala的函数字面量语法。

2024-12-18 15:07:04 183

原创 Scala中在集合复习,Map, Set ,Array, List是不是只有这四个?他们之间有什么关系,区别?

Scala 中的集合类型丰富多样,除了 Map、Set、Array、List 之外,还有如 ListBuffer、Vector、Stack 等多种集合类型,但 Map、Set、Array、List 是比较常用和基础的几种。例如,Array(1, 2, 3)在内存中是依次存储1、2、3这三个元素的。综上所述,Set 和 Map 在数据结构、元素类型与操作、查找访问方式、用途、可变性以及遍历方式等方面都存在显著区别,开发者应根据具体的业务需求来选择合适的集合类型,以实现高效、简洁的代码逻辑。

2024-11-30 11:30:00 385

原创 scala创建一个可变map用于存储图书馆信息

【代码】scala创建一个可变map用于存储图书馆信息。

2024-11-29 07:30:00 341

原创 scala统计词频

(1)从文件1.tst,读入内容,保存在一个字符串中。(2)统计字符串中,每个单词出现的频率。(4)把最后结果写入一个新的文件。(3)对结果进行排序。

2024-11-27 16:56:25 632

原创 在scala中判断一下随便输入一串数字的身份证号是否合法

【代码】在scala中判断一下随便输入一串数字的身份证号是否合法。

2024-11-27 14:52:37 363

原创 Scala练习题(梦想清单管理)

【代码】Scala练习题(梦想清单管理)

2024-11-26 13:00:00 144

原创 Scala 中Stack和Queue两种常用集合类型

数据结构特点:Queue是一种先进先出(First In First Out,FIFO)的数据结构,类似于排队等候的队伍,最先进入队列的元素总是最先被取出。数据结构特点:Stack是一种后进先出(Last In First Out,LIFO)的数据结构,就像一叠盘子,最后放入的盘子总是最先被取出。如果队列是空的,则会抛出异常。在 Scala 中,Stack和Queue是两种常用的集合类型,它们分别实现了栈和队列的数据结构。head:用于查看队列的头部元素,但不移除它,时间复杂度为 O (1)。

2024-11-25 14:44:33 609

原创 Scala的Array和ArrayBuffer集合及多维数组

平均插入/删除时间复杂度为O(1):向ArrayBuffer中添加或删除元素的平均时间复杂度为O(1),因为它会自动调整内部数组的大小。平均访问时间复杂度为O(1):由于Array的元素在内存中是连续存储的,因此通过索引访问元素的平均时间复杂度为O(1)。动态大小:ArrayBuffer的大小可以根据需要进行自动调整,因此它可以包含任意数量的元素,而不需要提前定义大小。不可变性:Array是不可变的,即不支持添加、删除或更新元素。可变性:ArrayBuffer是可变的,即可以在创建后添加、删除或更新元素。

2024-11-25 14:25:48 137

原创 scala的迭代器

Scala Iterator(迭代器)不是一个集合,它是一种用于访问集合的方法。复制迭代器:duplicate返回值是一个数组,有两个数据源一样的,独立的迭代器。调用 it.next() 会返回迭代器的下一个元素,并且更新迭代器的状态。迭代器 it 的两个基本操作是 next 和 hasNext。调用 it.hasNext() 用于检测集合中是否还有元素。tolist作用:把迭代器中剩余的数据储存到List中。take:从当前迭代器的位置开始,取n个元素。类似遍历器,一个不落,挨个访问。

2024-11-25 14:23:12 537

原创 Scala图书馆创建图书信息

【代码】Scala图书馆创建图书信息。

2024-11-11 15:38:41 138

原创 Scala的Map集合

如果你需要使用可变集合,你需要显式的引入 import scala.collection.mutable.Map 类。在 Scala 中 你可以同时使用可变与不可变 Map,不可变的直接使用 Map,可变的使用 mutable.Map。查询 :get方法,输入key,如果找到,就返回包装数据,如果没有找到,就返回None。Map 有两种类型,可变与不可变,区别在于可变对象可以修改它,而不可变对象不可以。直接:map(key名)如果key不存在,就会报错。Map常用操作有增加,删除,修改,查询。

2024-11-11 15:36:55 414

原创 Scala的sorted函数

sorted:按自然顺序对数组元素排序(数字:从小到大,字母:字典顺序),返回排序之后的新数组。功能:排序,直接使用自身的自然顺序进行排序。语法:新数组=原数组.sorted。对 数值排序,对字符串排序。

2024-10-22 14:45:00 215

原创 Scala的抽象类

抽象类的主要目的是为子类提供公共的接口和部分实现,并确保子类实现抽象方法和成员。

2024-10-22 07:00:00 132

原创 Scala的sortedWith

sortedWith:排序函数返回true表示第一个元素应该排在第二个元素之前。sortedWith方法:它使用传入的比较函数对集合进行排序。在排序过程中,根据比较函数的返回值来决定元素的顺序。如果比较函数返回true,则表示第一个参数应该排在第二个参数之前;如果返回false,则表示第一个参数应该排在第二个参数之后。sortedWith:基于函数的排序,通过一个comparator函数,实现自定义排序的逻辑。

2024-10-21 23:30:00 218

原创 设计一个Point类,其x和y可以通过构造器提供。再设计一个子类LablePoint它来继承Point类,其构造器接收一个标签值和x,y坐标

【代码】设计一个Point类,其x和y可以通过构造器提供。再设计一个子类LablePoint它来继承Point类,其构造器接收一个标签值和x,y坐标。

2024-10-21 15:14:57 212

原创 Scala的多态

从编译的角度解释Scala的多态含义:在执行期间而非编译期间确定所引用对象的类型,根据实际类型调用其方法。一个编译型语言有两种类型,分别为编译类型和运行类型。程序中定义的引用变量所指向的具体类型和通过该变量发出的方法调用在编译时不确定,而是在程序运行期间才确定的。

2024-10-21 15:13:40 541

原创 Scala的继承(不劳而获)

Scala中继承的定义为在原有类的基础上定义一个新类,原有类称为父类,新类称为子类。【问】当子类从父类继承的方法不能满足需要时,子类需要有自己的行为,怎么办?定义:在原有的基础上定义一个新类,原有类称为父类,新类称为子类。class 子类名 extends 父类名 { 类体 }先执行父类构造器,再执行子类构造器。

2024-10-21 14:34:06 553

原创 Scala的fold

作用与reduce一样,区别在于提供了一个初始值,在取值运算的过程中第一个元素需要先于初始值进行运算,再依次进行下一步的运算。Scala的fold解释为:对数组的每个元素执行指定的二元折叠操作。fold的格式:(初始值)(二元函数=>返回值)

2024-10-20 11:00:00 265

原创 Scala的flatten

定义一堆数组:Array(1,2,3,4)二维数组:数组的元素还是一个数组。作用:把二维数组,展开成一维数组。

2024-10-20 09:15:00 107

原创 Scala的filter函数

作用:对数组元素使用函数进行过滤。如果返回为true就保留。

2024-10-20 04:00:00 194

原创 Scala的map

作用:通过对数组的每一个元素应用一个函数来构建一个新数组。

2024-10-19 03:15:00 113

原创 Scala的foreach

foreach作用:通过对数组的每一个元素应用一个函数,不返回新数组。

2024-10-19 01:15:00 154

原创 Scala的高阶函数

根据函数返回值来确定过滤数组中的元素,最终返回值也是一个数组。如果传递的函数的返回值为真,将保留元素中的值;如果为假则过滤元素。是一个特殊的函数,特殊之处在于:它指使用其他函数作为参数或者返回值。返回值构建了一个新的数组通过应用函数遍历数组中的每一个元素。将二维数组中的元素平至单数组中。在每个元素上执行指定的程序。3.foreach函数。5.flatten函数。4.filter函数。

2024-10-18 09:45:00 104

原创 Scala部分应用函数

部分应用函数的定义:如果一个函数包含多个参数,对该函数传递部分参数使得该函数返回一个函数,那么这种函数称为部分应用函数。部分函数的作用:返回新的函数。

2024-10-17 09:30:00 165

原创 Scala的reduceLeft-reduceRight

reduceRight解释为:从右至左的取值顺序进行计算。reduceLeft解释为:从左至右的取值顺序进行计算。

2024-10-16 14:55:13 111

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除