....123456789-优快云博客

原创如何使用scp命令拉取其他虚拟机中文件

免密优化：提前配置 SSH 互信（ ssh-copy-id ），避免重复输密码。scp 目标主机用户@目标主机IP:源文件路径本地保存路径。

2025-05-13 15:44:37 455

在根目录下可见out111文件，文件打开后可以看到，word2.txt文件内单词被拆分。// 将元组的value按照key来分组，对所有的value执行聚合操作(相加)在hdfs中/wcinput中创建一个文件：word2.txt在里面写几个单词。进入环境：spark-shell --master yarn。// 将单词转换为元组对象，key是单词，value是数字1。// 将单词进行切割，得到一个存储全部单词的RDD。// 收集RDD的数据并打印输出结果。// 将结果储存在out111中。

2025-05-13 15:43:14 203

原创 Spark，RDD中的转换算子

对具有相同键的所有值进行聚合操作 = 统计词频。对数字1-10进行过滤，过滤出偶数。对数字1-10进行乘除，*2。reduceByKey算子。filatMap算子。

2025-05-13 15:37:28 154

原创在scala中sparkSQL读入csv文件

option("inferSchema", "true") // 自动推断数据类型（如 Int、Double）.option("nullValue", "NA") // 将 "NA" 识别为空值。.master("local[*]") // 单机模式，集群改为 "yarn" 等。.option("quote", "\"") // 文本字段引号（默认双引号）.option("escape", "\"") // 转义符（处理嵌套引号）.option("header", "true") // 首行作为表头。

2025-05-13 15:31:51 390

原创在scala中sparkSQL连接masql并添加新数据

val driverClass = "com.mysql.cj.jdbc.Driver" // MySQL 8+ 驱动类（5.x 用 com.mysql.jdbc.Driver）- 若报 ClassNotFoundException ，检查驱动是否正确部署（通过 --jars 参数或放入 $SPARK_HOME/jars/ ）。mode = "append", // 写入模式：append（追加）、overwrite（覆盖）等。- append ：数据追加到现有表（表需存在）。

2025-05-13 15:30:13 409

原创 spark Mysql数据库配置

下载驱动：从 Maven 仓库下载与 MySQL 服务端版本匹配的 mysql-connector-java-X.X.XX.jar （如 MySQL 8.0 对应 8.0.33 版本）。- MySQL 5.x 驱动类名为 com.mysql.jdbc.Driver ，8.x 及以上为 com.mysql.cj.jdbc.Driver。prop.setProperty("driver", "com.mysql.cj.jdbc.Driver") // MySQL 8+ 驱动类名。

2025-05-13 15:28:52 439

原创 Spark，集群搭建-Standalone

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk # 替换为实际路径。export SPARK_MASTER_IP=master_hostname # 主节点主机名/IP。- 官网下载对应版本（如 spark-3.5.0-bin-hadoop3 ），上传至主节点。- 主节点Web界面： http://master_ip:8080 ，查看从节点是否在线。ssh-copy-id slave1 # 替换为从节点主机名/IP。2. 分发Spark到从节点。

2025-05-13 15:27:21 270

原创 Spark，集群搭建之Yarn模式

Yarn全局资源需在 yarn-site.xml 中配置（如 yarn.nodemanager.resource.memory-mb ）。spark.eventLog.dir hdfs://nameservice1/spark-logs # HDFS日志路径（需提前创建）- 官网下载对应Hadoop版本的Spark（如 spark-3.5.0-bin-hadoop3 ），上传至主节点。- 通过 --executor-memory 和 --executor-cores 控制单个Executor资源。

2025-05-13 15:22:26 412

原创 Spark，IDEA编写Maven项目

在IDEA中选择 Create New Project > Maven > 勾选Create from archetype > 选择 maven-archetype-quickstart ，点击下一步。-- Spark SQL（按需添加其他模块，如spark-streaming） -->-- Maven打包插件（可选，用于生成可执行JAR） -->-- Scala编译插件 -->-- Scala语言依赖 -->-- 声明Scala插件 -->-- 插件配置 -->二、创建Maven项目。

2025-05-13 15:20:44 491

原创数据分析之Spark框架介绍

RDD是Spark中最基本的数据处理模型，它是一个不可变的、分布式的对象集合。Spark是一种快速、通用、可扩展的大数据分析引擎，它基于内存计算的大数据并行计算框架，能够显著提高大数据环境下数据处理的实时性，同时保证高容错性和高可伸缩性。Spark MLlib：提供常见的机器学习（ML）功能的程序库，包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。批处理：Spark可以处理大规模的数据集，并提供了丰富的数据处理和转换功能，适用于各种批处理任务，如数据清洗、ETL、数据分析等。

2025-05-13 15:15:38 327

原创基于Spark的气象数据分析

基于此，本项目使用Spark等大数据处理工具，采用机器学习、深度学习等多种数据分析方法，并借助可视化手段将多种类型数据与复杂数据进行解读与概括，探究大数据技术在气象数据中的应用，给受众传递更有价值的信息，进而有助于提升社会整体生产效率，推动市场经济的有效发展。历史天气数据可以通过爬取气象网站获得，这种方法的优点在于可以灵活选择自己想要的数据，缺点在于耗时较长、可能遇到反爬机制，此外气象网站的天气数据往往特征维数不高，不适于机器学习、深度学习等任务。打开中央气象台官方网站，任意点击“热点城市”中的一个城市。

2025-05-13 15:14:31 274

原创大数据scala面试题汇总

scala的模式匹配包括了⼀系列的匹配选项，匹配选项以关键字case为单位，每个匹配选项包括⼀个模式或多个表达式，如果匹配成功将执行或返回=>后面的表达式;纯函数(Pure Function /pjʊr/ /ˈfʌŋkʃn/)所有的输入通过参数传递到函数内部，所有的输出通过返回值传递到函数外部；scala中通过implicit关键字修饰的变量、函数或者类，在调用时，不用显式书写调用过程的一种语法。函数式编程是一种编程范式，主要思想就是将程序写成一系列函数嵌套的形式，让程序的条例更清晰，灵活性更强。

2025-05-12 11:23:12 370

原创 Idea集成scala

浏览器url输入http://downloads.typesafe.com/scala/2.11.8/scala-2.11.8.msi回车即可拉起下载弹窗，版本号都可以更改。File——settings——plugins，输入scala搜索（下图是我已经安装好了），点击下载，待插件下载完成后重启idea即可。scala版本和jdk版本有关系的，scala官网对此作了明确的要求。所以我们在集成scala前，需要先确认自己的jdk版本，我用的是jdk1.8。根据自己的idea版本选择对应的插件下载。

2025-05-12 11:22:01 563

原创 Scala介绍与环境搭建

新建空模板maven工程，删除无用的文件目录，新建scala目录将其作为Source Root(颜色会变为蓝色)在设置(Setting) -> 插件(Plugins) 里搜索scala安装，安装完成后会让你重启IDEA。3、IDEA新建项目，配置Scala，运行Hello world。3、IDEA新建项目，配置Scala，运行Hello world。下载需求版本(建议1.8)的安装包，配置环境变量，应用即可。3.1、下载scala插件，重启IDEA。一、Scala环境搭建。一、Scala环境搭建。

2025-05-12 11:20:34 235

原创 scala 安装和创建项目

Scala不是Java的扩展，但它完全可以与Java互操作。scala的名字来源于单词scalable，意思是它可以随着用户的需求而增长。scala 安装要保证电脑已经安装过 java8 获取 java11，笔者的电脑安装的是 java11。Scala 官网：https://www.scala-lang.org/1.1、使用 Scala安装程序安装。1.1、使用 Scala安装程序安装。3.1、安装 Scala 插件。3.2、新建 Scala 项目。1、scala 安装。1、scala 安装。

2025-05-12 11:19:32 164

原创 Scala和Spark的介绍

一般情况下，对于迭代次数较多的应用程序，Spark程序在内存中的运行速度是Hadoop MapReduce运行速度的100多倍，在磁盘上的运行速度是Hadoop MapReduce运行速度的10多倍。第一阶段：Spark最初由美国加州伯克利大学( UC Berkelcy)的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Scala 是一种纯粹的面向对象的语言，每个值都是对象。Scala 也是一种函数式语言，因此函数可以当成值使用。

2025-05-12 11:18:23 439

原创 Scala安装教程

Scala是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行在Java虚拟机上，并兼容现有的Java程序。Scala源代码被编译成Java字节码，所以它可以运行于JVM之上，并可以调用现有的Java类库。函数编程范式更适合用于Map/Reduce和大数据模型，着眼于函数本身，函数范式逻辑清晰、简单，非常适合用于处理基于不变数据的批量处理工作。像Spark,kafka等都是采用Scala开发的，所以学习好大数据，掌握scala是必要的。

2025-05-12 11:17:23 553

原创 Scala编程语言

Java中的方法引用相当于是拉姆达表达式的升级版本，主要就是用来替换整个拉姆达表达式的，当拉姆达表达式的方法体是引用了另外一个类的方法，并且方法体中没有多余的代码时，可以使用方法引用来简化代码。3、如果方法体只有一行代码，而且这一行代码没有return关键字，那么方法体的{}可以省略，而且这一行代码不需要加分号。Java中的拉姆达（λ）表达式是和Java中的一个接口紧密相关的，接口函数式编程接口（接口中只有一个抽象方法）1、形参列表的类型可以省略的，因为拉姆达表达式对应的函数式编程接口的抽象方法是确定的。

2025-05-12 11:14:23 302

原创 Scala最基础入门教程

1、概述官方编程指南https://www.scala-lang.org/Scala将面向对象和函数式编程结合成一种简洁的高级语言。语言特点如下：（1）Scala和Java一样属于JVM语言，使用时都需要先编译为class字节码文件，并且Scala能够直接调用Java的类库。（2）Scala支持两种编程范式面向对象和函数式编程。（3）Scala语言更加简洁高效；语法能够化简，函数式编程的思想使代码结构简洁。

2025-05-12 11:13:27 137

原创 Spark，Idea中编写Spark程序 2

命令为：[root@hadoop100 sbin]# spark-submit --class WordCount_online --master yarn /opt/module/original-untitled-1.0-SNAPSHOT.jar /wcinput /output1。// 写一个spark程序，统计input目录下所有文本文件中单词的词频。// 将所有分区的数据合并成一个分区。// 把结果保存在output下。// 配置 Spark 应用程序。// 读取目录下的所有文本文件。

2025-05-12 11:11:48 401

原创如何在idea中写spark程序。

打开 File > Settings > Build, Execution, Deployment > Application Servers ，添加 Spark 路径（指向解压后的 spark-3.3.2-bin-hadoop3 目录）。- 从 Spark 官网下载对应版本的预编译包（如 spark-3.3.2-bin-hadoop3 ），解压到本地（如 C:\spark ）。- Main Class：填入主类全路径（如 com.example.WordCount ）。

2025-05-12 11:09:49 321

原创如何搭建spark yarn 模式的集群集群。

配置调优：根据服务器资源调整 yarn.nodemanager.resource.memory-mb （YARN 内存）和 Spark 任务参数（如 --executor-memory ）。- 通过 Spark 历史服务器（配置 spark.history.fs.logDirectory 并启动 start-history-server.sh ）查看任务日志。echo "export SPARK_MASTER_IP=主节点IP" >> /opt/spark/conf/spark-env.sh。

2025-05-12 11:07:45 383

原创 spark 的流量统计案例

创建一个目录为data。

2025-05-06 15:02:05 175

原创 mapreduce的工作原理

其工作原理基于"分而治之"的思想，将任务分解为Map（映射）和Reduce（归约）两个阶段。需要注意的是，MapReduce并非万能解决方案，对于迭代计算、实时处理等场景可能效率较低，需根据具体业务需求选择合适的计算框架。- 使用用户定义的Map函数将数据转换为中间键值对（<key, value>）- 数据本地化（Data Locality）优先调度任务到数据所在节点。- 每个Reduce节点接收多个Map的输出，进行合并排序。- 分区后的数据通过网络传输到对应的Reduce节点。

2025-04-01 13:59:06 240

原创 hadoop 集群的常用命令

例如， hdfs dfs -chown -R hadoop:hadoop /user/hadoop/data ， -R 选项用于递归修改目录及其子目录和文件的所有者。- 显示文件或目录的磁盘空间使用情况： hdfs dfs -du [-s] [-h] <path>。-s 选项用于汇总指定路径下的总大小， -h 选项以人类可读的格式显示大小，如 hdfs dfs -du -s -h /user/hadoop/data。- 获取文件系统的统计信息： hdfs dfsadmin -report。

2025-04-01 13:58:20 518

原创虚拟机的ip配置

本文主要介绍使用VMware新建一个centOS虚拟机后，如何连接网络并配置静态ip的过程。上篇文章中我们介绍了如何使用VMware创建一个centOS系统的虚拟机，点击进入传送门。但是虚拟机安装联网。没有连接网络的操作系统能有什么意思？

2025-03-03 20:19:25 135

原创 spark 虚拟机（Linux)基本命令

波浪线，当前用户的home目录，比如root用户home目录是/root。rm -rf ./bbb 将目录及以下所有递归逐一删除，无需用户确认。相对路径：当前相对当前工作目录开始的路径，会随着当前路径变化而变化。rm -rf /* 将根目录及以下所有递归逐一删除，无需用户确认。mkdir -p：创建目录，如果父级目录不存在，就建立一个新目录。删除文件无需用户确如 rm -f ＋文件名（慎用！ll -a 命令，显示当前的目录下的文件，包括隐藏文件。ll 命令，用来显示当前的目录下的文件。

2025-02-25 12:12:03 136

原创 spark 虚拟机基本命令（2）

会把aaa、这三个字符写入a.txt文件，并把之前的内容全部覆盖掉（等价于先删除了a.txt的内容，再写入aaa）会把文件的最尾部的内容显示在屏幕上，并且不断刷新，只要文件有更新，就可以看到最新的文件内容。命令是：tar -cvf test.tar 1.txt 2.txt 3.txt。示例1：把1.txt，2.txt，3.txt压缩到test.tar文件中。格式：tar -cvf 压缩包.tar 文件1 文件2 文件3。-c 建立一个压缩文件，把多个文件或文件夹压缩到一个新的文件中。功能：压缩或解压文件。

2025-02-25 12:10:03 504

原创 spark vi基本使用

1.如果这个文件不存在，此时就是新建文件，编辑器的左下角会提示：new file。d(一个小d)加←删除左侧一个单词，d(一个小d)加→删除右侧一个单词。vi编辑器有三种工作模式，分别为：命令模式，输入模式，底线模式。2.如果文件已存在，此时就打开这个文件，进入命令模式。底线命令模式：以：开始，通常用于文件的保存和退出。2.nyy(n+两个小y)复制当前行往下n行内容。2.ndd(n+两个小d)用来删除当前行往下n行。nyy(n+两个小y)复制当前行往下n行内容。1.yy（两个 y）复制光标所在行的内容。

2025-02-25 12:08:10 255

原创如何安装vm 和centos

创建虚拟机：打开VMware Workstation，点击“创建新的虚拟机”，选择“自定义（高级）”，按提示点击“下一步”；配置虚拟机：点击“编辑虚拟机设置”，在“CD/DVD”选项中，勾选“启动时连接”，选择“使用ISO映像文件”，浏览找到下载的CentOS镜像文件，点击“确定”。输入许可证密钥：安装完成后，点击“许可证”，输入有效的许可证密钥，点击“输入”，也可选择试用。选择安装位置：可使用默认位置，也可点击“更改”选择其他路径，之后点击“下一步”。开始安装：点击“开始安装”，等待安装完成。

2025-02-25 12:06:22 422

原创 Spark(1)

特点：提高处理能力：通过将任务分散到多个节点上并行计算，能够大大提高数据处理的速度和效率，从而可以在短时间内处理海量数据，满足大数据时代对数据处理的实时性和高效性要求。1.硬件资源有限：单机系统的计算能力、存储容量和内存空间都受限于单台计算机的硬件配置。1.无法处理大规模数据：随着业务的发展和数据量的增长，单机系统很快就会遇到存储和处理能力的瓶颈，无法应对海量数据的存储和分析需求。3.应用场景简单：主要用于个人办公、简单的游戏娱乐或小型企业的基本业务处理，如文字处理、单机游戏、简单的库存管理等。

2025-02-24 19:07:53 239

原创 Scala用途，简介，优点

在并发性方面与 Scala 在 .NET 领域中的姐妹语言 F# 相似，Scala 是针对 “并发性问题” 的解决方案之一，让开发人员能够更加轻松地专注于问题的实质，而不用考虑并发编程的低级细节。正所谓，金无足赤，人无完人。Scala不是Java的杀手，它无法取代Java的地位，也突破不了JVM的限制、Java实现不了的功能它也实现不了。Scala结合了面向对象和函数编程的优势，函数编程的一个好处就是你能够像运用一个数据那样运用函数，可以用来定义真正高层级的库，或者去定义新的领域特殊语言(DSL)。

2024-12-30 08:10:53 1174

空空如也

空空如也