自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 如何使用scp命令拉取其他虚拟机中文件

免密优化:提前配置 SSH 互信( ssh-copy-id ),避免重复输密码。scp 目标主机用户@目标主机IP:源文件路径 本地保存路径。

2025-05-13 15:44:37 455

原创 Spark,在shell中运行RDD程序

在根目录下可见out111文件,文件打开后可以看到,word2.txt文件内单词被拆分。// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词。进入环境:spark-shell --master yarn。// 将单词转换为元组对象,key是单词,value是数字1。// 将单词进行切割,得到一个存储全部单词的RDD。// 收集RDD的数据并打印输出结果。// 将结果储存在out111中。

2025-05-13 15:43:14 203

原创 Spark,RDD中的转换算子

对具有相同键的所有值进行聚合操作 = 统计词频。对数字1-10进行过滤,过滤出偶数。对数字1-10进行乘除,*2。reduceByKey算子。filatMap算子。

2025-05-13 15:37:28 154

原创 在scala中sparkSQL读入csv文件

option("inferSchema", "true") // 自动推断数据类型(如 Int、Double).option("nullValue", "NA") // 将 "NA" 识别为空值。.master("local[*]") // 单机模式,集群改为 "yarn" 等。.option("quote", "\"") // 文本字段引号(默认双引号).option("escape", "\"") // 转义符(处理嵌套引号).option("header", "true") // 首行作为表头。

2025-05-13 15:31:51 390

原创 在scala中sparkSQL连接masql并添加新数据

val driverClass = "com.mysql.cj.jdbc.Driver" // MySQL 8+ 驱动类(5.x 用 com.mysql.jdbc.Driver)- 若报 ClassNotFoundException ,检查驱动是否正确部署(通过 --jars 参数或放入 $SPARK_HOME/jars/ )。mode = "append", // 写入模式:append(追加)、overwrite(覆盖)等。- append :数据追加到现有表(表需存在)。

2025-05-13 15:30:13 409

原创 spark Mysql数据库配置

下载驱动:从 Maven 仓库 下载与 MySQL 服务端版本匹配的 mysql-connector-java-X.X.XX.jar (如 MySQL 8.0 对应 8.0.33 版本)。- MySQL 5.x 驱动类名为 com.mysql.jdbc.Driver ,8.x 及以上为 com.mysql.cj.jdbc.Driver。prop.setProperty("driver", "com.mysql.cj.jdbc.Driver") // MySQL 8+ 驱动类名。

2025-05-13 15:28:52 439

原创 Spark,集群搭建-Standalone

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk # 替换为实际路径。export SPARK_MASTER_IP=master_hostname # 主节点主机名/IP。- 官网下载对应版本(如 spark-3.5.0-bin-hadoop3 ),上传至主节点。- 主节点Web界面: http://master_ip:8080 ,查看从节点是否在线。ssh-copy-id slave1 # 替换为从节点主机名/IP。2. 分发Spark到从节点。

2025-05-13 15:27:21 270

原创 Spark,集群搭建之Yarn模式

Yarn全局资源需在 yarn-site.xml 中配置(如 yarn.nodemanager.resource.memory-mb )。spark.eventLog.dir hdfs://nameservice1/spark-logs # HDFS日志路径(需提前创建)- 官网下载对应Hadoop版本的Spark(如 spark-3.5.0-bin-hadoop3 ),上传至主节点。- 通过 --executor-memory 和 --executor-cores 控制单个Executor资源。

2025-05-13 15:22:26 412

原创 Spark,IDEA编写Maven项目

在IDEA中选择 Create New Project > Maven > 勾选Create from archetype > 选择 maven-archetype-quickstart ,点击下一步。-- Spark SQL(按需添加其他模块,如spark-streaming) -->-- Maven打包插件(可选,用于生成可执行JAR) -->-- Scala编译插件 -->-- Scala语言依赖 -->-- 声明Scala插件 -->-- 插件配置 -->二、创建Maven项目。

2025-05-13 15:20:44 491

原创 数据分析之Spark框架介绍

RDD是Spark中最基本的数据处理模型,它是一个不可变的、分布式的对象集合。Spark是一种快速、通用、可扩展的大数据分析引擎,它基于内存计算的大数据并行计算框架,能够显著提高大数据环境下数据处理的实时性,同时保证高容错性和高可伸缩性。Spark MLlib:提供常见的机器学习(ML)功能的程序库,包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。批处理:Spark可以处理大规模的数据集,并提供了丰富的数据处理和转换功能,适用于各种批处理任务,如数据清洗、ETL、数据分析等。

2025-05-13 15:15:38 327

原创 基于Spark的气象数据分析

基于此,本项目使用Spark等大数据处理工具,采用机器学习、深度学习等多种数据分析方法,并借助可视化手段将多种类型数据与复杂数据进行解读与概括,探究大数据技术在气象数据中的应用,给受众传递更有价值的信息,进而有助于提升社会整体生产效率,推动市场经济的有效发展。历史天气数据可以通过爬取气象网站获得,这种方法的优点在于可以灵活选择自己想要的数据,缺点在于耗时较长、可能遇到反爬机制,此外气象网站的天气数据往往特征维数不高,不适于机器学习、深度学习等任务。打开中央气象台官方网站,任意点击“热点城市”中的一个城市。

2025-05-13 15:14:31 274

原创 大数据scala面试题汇总

scala的模式匹配包括了⼀系列的匹配选项,匹配选项以关键字case为单位,每个匹配选项包括⼀个模式或多个表达式,如果匹配成功将执行或返回=>后面的表达式;纯函数(Pure Function /pjʊr/ /ˈfʌŋkʃn/)所有的输入通过参数传递到函数内部,所有的输出通过返回值传递到函数外部;scala中通过implicit关键字修饰的变量、函数或者类,在调用时,不用显式书写调用过程的一种语法。函数式编程是一种编程范式,主要思想就是将程序写成一系列函数嵌套的形式,让程序的条例更清晰,灵活性更强。

2025-05-12 11:23:12 370

原创 Idea集成scala

浏览器url输入http://downloads.typesafe.com/scala/2.11.8/scala-2.11.8.msi回车即可拉起下载弹窗,版本号都可以更改。File——settings——plugins,输入scala搜索(下图是我已经安装好了),点击下载,待插件下载完成后重启idea即可。scala版本和jdk版本有关系的,scala官网对此作了明确的要求。所以我们在集成scala前,需要先确认自己的jdk版本,我用的是jdk1.8。根据自己的idea版本选择对应的插件下载。

2025-05-12 11:22:01 563

原创 Scala介绍与环境搭建

新建空模板maven工程,删除无用的文件目录,新建scala目录将其作为Source Root(颜色会变为蓝色)在设置(Setting) -> 插件(Plugins) 里 搜索scala安装,安装完成后会让你重启IDEA。3、IDEA新建项目,配置Scala,运行Hello world。3、IDEA新建项目,配置Scala,运行Hello world。下载需求版本(建议1.8)的安装包,配置环境变量,应用即可。3.1、下载scala插件,重启IDEA。一、Scala环境搭建。一、Scala环境搭建。

2025-05-12 11:20:34 235

原创 scala 安装和创建项目

Scala不是Java的扩展,但它完全可以与Java互操作。scala的名字来源于单词scalable,意思是它可以随着用户的需求而增长。scala 安装要保证电脑已经安装过 java8 获取 java11,笔者的电脑安装的是 java11。Scala 官网:https://www.scala-lang.org/1.1、使用 Scala安装程序安装。1.1、使用 Scala安装程序安装。3.1、安装 Scala 插件。3.2、新建 Scala 项目。1、scala 安装。1、scala 安装。

2025-05-12 11:19:32 164

原创 Scala和Spark的介绍

一般情况下,对于迭代次数较多的应用程序,Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的100多倍,在磁盘上的运行速度是Hadoop MapReduce运行速度的10多倍。第一阶段:Spark最初由美国加州伯克利大学( UC Berkelcy)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Scala 是一种纯粹的面向对象的语言,每个值都是对象。Scala 也是一种函数式语言,因此函数可以当成值使用。

2025-05-12 11:18:23 439

原创 Scala安装教程

Scala是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行在Java虚拟机上,并兼容现有的Java程序。Scala源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。函数编程范式更适合用于Map/Reduce和大数据模型,着眼于函数本身,函数范式逻辑清晰、简单,非常适合用于处理基于不变数据的批量处理工作。像Spark,kafka等都是采用Scala开发的,所以学习好大数据,掌握scala是必要的。

2025-05-12 11:17:23 553

原创 Scala编程语言

Java中的方法引用相当于是拉姆达表达式的升级版本,主要就是用来替换整个拉姆达表达式的,当拉姆达表达式的方法体是引用了另外一个类的方法,并且方法体中没有多余的代码时,可以使用方法引用来简化代码。3、如果方法体只有一行代码,而且这一行代码没有return关键字,那么方法体的{}可以省略,而且这一行代码不需要加分号。Java中的拉姆达(λ)表达式是和Java中的一个接口紧密相关的,接口函数式编程接口(接口中只有一个抽象方法)1、形参列表的类型可以省略的,因为拉姆达表达式对应的函数式编程接口的抽象方法是确定的。

2025-05-12 11:14:23 302

原创 Scala最基础入门教程

1、概述官方编程指南https://www.scala-lang.org/Scala将面向对象和函数式编程结合成一种简洁的高级语言。语言特点如下:(1)Scala和Java一样属于JVM语言,使用时都需要先编译为class字节码文件,并且Scala能够直接调用Java的类库。(2)Scala支持两种编程范式面向对象和函数式编程。(3)Scala语言更加简洁高效;语法能够化简,函数式编程的思想使代码结构简洁。

2025-05-12 11:13:27 137

原创 Spark,Idea中编写Spark程序 2

命令为:[root@hadoop100 sbin]# spark-submit --class WordCount_online --master yarn /opt/module/original-untitled-1.0-SNAPSHOT.jar /wcinput /output1。// 写一个spark程序,统计input目录下所有文本文件中单词的词频。// 将所有分区的数据合并成一个分区。// 把结果保存在output下。// 配置 Spark 应用程序。// 读取目录下的所有文本文件。

2025-05-12 11:11:48 401

原创 如何在idea中写spark程序。

打开 File > Settings > Build, Execution, Deployment > Application Servers ,添加 Spark 路径(指向解压后的 spark-3.3.2-bin-hadoop3 目录)。- 从 Spark 官网 下载对应版本的预编译包(如 spark-3.3.2-bin-hadoop3 ),解压到本地(如 C:\spark )。- Main Class:填入主类全路径(如 com.example.WordCount )。

2025-05-12 11:09:49 321

原创 如何搭建spark yarn 模式的集群集群。

配置调优:根据服务器资源调整 yarn.nodemanager.resource.memory-mb (YARN 内存)和 Spark 任务参数(如 --executor-memory )。- 通过 Spark 历史服务器(配置 spark.history.fs.logDirectory 并启动 start-history-server.sh )查看任务日志。echo "export SPARK_MASTER_IP=主节点IP" >> /opt/spark/conf/spark-env.sh。

2025-05-12 11:07:45 383

原创 spark 的流量统计案例

创建一个目录为data。

2025-05-06 15:02:05 175

原创 mapreduce的工作原理

其工作原理基于"分而治之"的思想,将任务分解为Map(映射)和Reduce(归约)两个阶段。需要注意的是,MapReduce并非万能解决方案,对于迭代计算、实时处理等场景可能效率较低,需根据具体业务需求选择合适的计算框架。- 使用用户定义的Map函数将数据转换为中间键值对(<key, value>)- 数据本地化(Data Locality)优先调度任务到数据所在节点。- 每个Reduce节点接收多个Map的输出,进行合并排序。- 分区后的数据通过网络传输到对应的Reduce节点。

2025-04-01 13:59:06 240

原创 hadoop 集群的常用命令

例如, hdfs dfs -chown -R hadoop:hadoop /user/hadoop/data , -R 选项用于递归修改目录及其子目录和文件的所有者。- 显示文件或目录的磁盘空间使用情况: hdfs dfs -du [-s] [-h] <path>。-s 选项用于汇总指定路径下的总大小, -h 选项以人类可读的格式显示大小,如 hdfs dfs -du -s -h /user/hadoop/data。- 获取文件系统的统计信息: hdfs dfsadmin -report。

2025-04-01 13:58:20 518

原创 虚拟机的ip配置

本文主要介绍使用VMware新建一个centOS虚拟机后,如何连接网络并配置静态ip的过程。上篇文章中我们介绍了如何使用VMware创建一个centOS系统的虚拟机,点击进入传送门。但是虚拟机安装联网。没有连接网络的操作系统能有什么意思?

2025-03-03 20:19:25 135

原创 spark 虚拟机(Linux)基本命令

波浪线,当前用户的home目录,比如root用户home目录是/root。rm -rf ./bbb 将目录及以下所有递归逐一删除,无需用户确认。相对路径:当前相对当前工作目录开始的路径,会随着当前路径变化而变化。rm -rf /* 将根目录及以下所有递归逐一删除,无需用户确认。mkdir -p:创建目录,如果父级目录不存在,就建立一个新目录。删除文件无需用户确如 rm -f +文件名 (慎用!ll -a 命令,显示当前的目录下的文件,包括隐藏文件。ll 命令,用来显示当前的目录下的文件。

2025-02-25 12:12:03 136

原创 spark 虚拟机基本命令(2)

会把aaa、这三个字符写入a.txt文件,并把之前的内容全部覆盖掉(等价于先删除了a.txt的内容,再写入aaa)会把文件的最尾部的内容显示在屏幕上,并且不断刷新,只要文件有更新,就可以看到最新的文件内容。命令是:tar -cvf test.tar 1.txt 2.txt 3.txt。示例1:把1.txt,2.txt,3.txt压缩到test.tar文件中。格式:tar -cvf 压缩包.tar 文件1 文件2 文件3。-c 建立一个压缩文件,把多个文件或文件夹压缩到一个新的文件中。功能:压缩或解压文件。

2025-02-25 12:10:03 504

原创 spark vi基本使用

1.如果这个文件不存在,此时就是新建文件,编辑器的左下角会提示:new file。d(一个小d)加←删除左侧一个单词,d(一个小d)加→删除右侧一个单词。vi编辑器有三种工作模式,分别为:命令模式,输入模式,底线模式。2.如果文件已存在,此时就打开这个文件,进入命令模式。底线命令模式:以:开始,通常用于文件的保存和退出。2.nyy(n+两个小y)复制当前行往下n行内容。2.ndd(n+两个小d)用来删除当前行往下n行。nyy(n+两个小y)复制当前行往下n行内容。1.yy(两个 y)复制光标所在行的内容。

2025-02-25 12:08:10 255

原创 如何安装vm 和centos

创建虚拟机:打开VMware Workstation,点击“创建新的虚拟机”,选择“自定义(高级)”,按提示点击“下一步”;配置虚拟机:点击“编辑虚拟机设置”,在“CD/DVD”选项中,勾选“启动时连接”,选择“使用ISO映像文件”,浏览找到下载的CentOS镜像文件,点击“确定”。输入许可证密钥:安装完成后,点击“许可证”,输入有效的许可证密钥,点击“输入”,也可选择试用。选择安装位置:可使用默认位置,也可点击“更改”选择其他路径,之后点击“下一步”。开始安装:点击“开始安装”,等待安装完成。

2025-02-25 12:06:22 422

原创 Spark(1)

特点:提高处理能力:通过将任务分散到多个节点上并行计算,能够大大提高数据处理的速度和效率,从而可以在短时间内处理海量数据,满足大数据时代对数据处理的实时性和高效性要求。1.硬件资源有限:单机系统的计算能力、存储容量和内存空间都受限于单台计算机的硬件配置。1.无法处理大规模数据:随着业务的发展和数据量的增长,单机系统很快就会遇到存储和处理能力的瓶颈,无法应对海量数据的存储和分析需求。3.应用场景简单:主要用于个人办公、简单的游戏娱乐或小型企业的基本业务处理,如文字处理、单机游戏、简单的库存管理等。

2025-02-24 19:07:53 239

原创 Scala用途,简介,优点

在并发性方面 与 Scala 在 .NET 领域中的姐妹语言 F# 相似,Scala 是针对 “并发性问题” 的解决方案之一,让开发人员能够更加轻松地专注于问题的实质,而不用考虑并发编程的低级细节。正所谓,金无足赤,人无完人。Scala不是Java的杀手,它无法取代Java的地位,也突破不了JVM的限制、Java实现不了的功能它也实现不了。Scala结合了面向对象和函数编程的优势,函数编程的一个好处就是你能够像运用一个数据那样运用函数,可以用来定义真正高层级的库,或者去定义新的领域特殊语言(DSL)。

2024-12-30 08:10:53 1174

原创 大数据Scala面试题汇总

1. scala语言有什么特点?3. 什么是scala中的纯函数?2. 什么是scala中的闭包?

2024-12-30 08:05:45 660

原创 Scala之前学习的思维导图

2024-12-19 09:55:57 107

原创 Scala的泛型界限

如果给某个泛型设置了上界:这里的类型必须是上界。如果给某个泛型设置了下界:这里的类型必须是下界。对类型的更加具体的约束!

2024-12-19 09:54:41 532

原创 Scala的异常

A. try 的中文是试一试,catch是捕获,finally是最后的。关于try catch finally 的说法正确的是( D )C. 把是否有异常,finally 中的代码一定会执行。} finally { //可选 (即可写可不写)在scala中,1/0会导致如下什么异常( C )无论是否有异常发送,都会做的事情 //可选。B. 把可能会出现异常的代码写在 try 中。D. catch 中不能获取具体异常信息。发生异常之后的处理逻辑。异常如果不处理,会导致整个。异常:不是正常的情况。

2024-12-19 09:52:05 147

原创 图书管理系统,代码

2024-12-16 11:34:44 135

原创 Scala编程语言介绍

Scala是一种多范式的编程语言,它将面向对象和函数式编程结合在一个简洁的高级语言中,Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。注意::: 操作符是右结合的,如9 :: 5 :: 2 :: Nil相当于 9 :: (5 :: (2 :: Nil))//在scala中每个表达式都有值,scala中有个Unit类,写做(),相当于Java中的void。//在scala中{}中课包含一系列表达式,块中最后一个表达式的值就是块的值。

2024-12-09 08:12:53 1100

原创 Scala语言特点

4)Scala在设计时,马丁 奥德斯基 是参考了JAva的设计思想,可以说Scala是源于java,同时 马丁 奥德斯基 也加入了自己的思想,将函数时编程式的特点给融合到JAva中。2)Scala源代码会被编译程java字节码(.class),然后运行在JVM之上,并可以调用现在的Java类库,实现两种语言的无缝对接。3)Scala单位为一门语言来看,非常的简洁高效(三元运算, ++,- -)1) Scala是一门范式的编程语言,Scala支持面向对象和函数式编程。Scala语言的特点。

2024-12-09 08:09:18 348

原创 Scala语言介绍

4)Scala在设计时,马丁·奥德斯基是参考了Java的设计思想,可以说Scala是源于Java,同时马丁·奥德斯基也加入了自己的思想,将函数式编程语言的特点融合到JAVA中, 因此,对于学习过Java的同学,只要在学习Scala的过程中,搞清楚Scala和Java相同点和不同点,就可以快速的掌握Scala这门语言。Scala是一门可扩展的语言(scalable),该语言只定义了最少的部分,其它部分使用类(class)和方法(method)实现,这样可以根据计算机语言和软件的发展不断扩展和改进。

2024-12-09 08:07:33 407

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除