我不是大饼-优快云博客

原创 Spark 的数据源支持

Spark 支持多种数据源，包括文件系统（如 HDFS、本地文件系统）、数据库（如 MySQL、PostgreSQL）、消息队列（如 Kafka）和云存储（如 Amazon S3、Google Cloud Storage）。通过 DataSource API，Spark 能够自动推断数据源的模式，并提供高效的数据读写操作。例如，读取 JSON 文件时，Spark 可自动解析数据结构；此外，Spark 还支持自定义数据源，开发人员可根据需求实现特定的数据读取和写入逻辑，扩展 Spark 的数据处理能力。

2025-05-14 09:06:05 283

原创 Spark 的性能调优策略

Spark 性能调优涉及多个方面。在数据处理层面，合理设置 RDD 分区数，避免数据倾斜；对数据进行压缩存储，减少磁盘 I/O 和网络传输开销。在资源配置方面，根据集群资源和作业需求调整 Executor 数量、内存大小和 CPU 核数。在任务调度方面，优化 DAG 图，减少 Stage 之间的依赖；启用推测执行，避免慢任务拖慢整体进度。此外，还可通过监控工具（如 Spark UI）分析作业执行情况，定位性能瓶颈并针对性地进行优化，以提升 Spark 应用的整体性能。

2025-05-14 09:05:55 246

原创 Spark Streaming 的容错与 Exactly - Once 语义

WAL 将输入数据记录到可靠存储中，当 Executor 失败时，可从日志中恢复数据重新处理。Checkpoint 则定期保存 Streaming 作业的元数据和中间状态，确保作业重启后能够继续正确执行。为实现 Exactly - Once 语义，Spark Streaming 结合 Kafka 的事务机制和偏移量管理，保证每条数据仅被处理一次，避免数据重复和丢失。在金融交易处理、实时日志分析等对数据一致性要求高的场景中，这些容错和语义保障机制至关重要。

2025-05-14 09:05:30 225

原创 MLlib 中的特征工程

MLlib 提供了丰富的特征工程工具，包括特征提取、转换和选择。特征提取可将原始数据转换为机器学习模型可处理的特征向量，如使用 TF - IDF 提取文本特征。特征转换包括标准化、归一化、编码等操作，用于调整特征的尺度和格式，提高模型性能。特征选择算法如卡方检验、信息增益等，可筛选出对模型贡献度高的特征，减少数据维度，降低计算复杂度。在构建机器学习模型时，合理的特征工程能够显著提升模型的准确性和泛化能力，是数据预处理阶段的关键环节。

2025-05-14 09:05:21 227

原创 GraphX 的图算法实现原理

GraphX 中的图算法基于 Pregel 模型实现。Pregel 模型将图计算划分为多个超级步（Superstep），在每个超级步中，顶点并行执行相同的计算逻辑，并通过消息传递机制与邻居顶点交换信息。例如，PageRank 算法通过多次迭代更新顶点的 PageRank 值，每次迭代中顶点接收邻居顶点传递的消息并更新自身值。GraphX 通过优化消息传递和顶点计算的并行性，以及利用 Spark 的分布式计算能力，高效处理大规模图数据，实现复杂图算法的快速执行。

2025-05-14 09:05:11 256

原创 Spark 的监控与日志管理

Spark 提供了 Web UI 和命令行工具用于监控应用运行状态。Web UI 展示作业的执行进度、任务运行情况、资源使用等信息，方便开发人员定位性能问题和故障。日志管理方面，Spark 记录了详细的运行日志，包括任务执行日志、Executor 日志等。通过配置日志级别和输出路径，可灵活控制日志的生成和存储。此外，还可集成第三方监控工具（如 Prometheus、Grafana），实现对 Spark 集群和应用的实时监控和可视化展示，提升运维管理效率。

2025-05-14 09:05:02 269

原创 Spark 与云平台的结合

在云环境中，可利用云平台的弹性计算资源动态扩展 Spark 集群，根据业务需求灵活调整计算能力。云存储服务（如 S3、Blob Storage）可作为 Spark 的数据源和数据存储，实现数据的高效访问和共享。此外，云平台还提供了托管的 Spark 服务（如 AWS EMR、Azure HDInsight），简化了 Spark 集群的部署和管理，降低了企业使用 Spark 的门槛，使企业能够更专注于数据分析和业务创新。

2025-05-14 09:04:49 257

原创 Spark 的多租户支持

在企业大数据环境中，多个用户或应用可能共享同一 Spark 集群。Spark 通过资源隔离和权限管理实现多租户支持。在资源隔离方面，可通过 YARN 或 Mesos 的队列管理机制，为不同租户分配固定的资源份额，避免资源争抢。权限管理则通过 Apache Ranger 等工具，对用户访问数据和执行操作进行细粒度的权限控制，确保数据安全和隐私。多租户支持使得 Spark 集群能够高效服务于多个业务部门，提高资源利用率和集群管理效率。

2025-05-14 09:04:26 236

原创 Spark 的分布式缓存

Spark 的分布式缓存用于在 Executor 节点上缓存数据，减少数据读取开销。广播变量（Broadcast Variable）是一种只读的分布式缓存，可将小数据集分发到所有 Executor 节点，避免在每个任务中重复传输数据。累加器（Accumulator）则是一种可变的分布式缓存，常用于在分布式计算中进行全局计数或累加操作。在数据处理过程中，合理使用分布式缓存可显著提升应用性能，例如在机器学习模型训练中缓存模型参数，在数据清洗中缓存字典数据等。

2025-05-14 09:04:13 157

原创 Spark 的窗口函数与分析

在 Spark SQL 中，窗口函数用于在一组行上进行计算，返回与每一行相关的结果。窗口函数可以进行排名、累计求和、移动平均等复杂计算，通过定义窗口分区和排序规则，实现对数据的灵活分析。例如，使用 ROW_NUMBER () 函数对数据进行排名，使用 SUM () OVER () 函数计算累计销售额。窗口函数在数据分析和报表生成中应用广泛，能够帮助企业快速获取数据的统计信息和趋势分析，为决策提供有力支持。

2025-05-14 09:04:03 228

原创 Spark 的自定义函数（UDF）

Spark 支持用户自定义函数（UDF），允许开发人员根据业务需求编写特定的计算逻辑。UDF 可以在 SQL 语句或 DataFrame/Dataset API 中使用，扩展 Spark 的功能。例如，编写一个 UDF 函数将日期字符串转换为特定格式，或实现自定义的文本处理逻辑。通过注册 UDF 函数，可在 Spark 应用中重复使用自定义的计算逻辑，提高代码的复用性和灵活性。但需注意，UDF 函数的性能可能低于内置函数，使用时需进行性能评估和优化。

2025-05-14 09:03:50 222

原创 Spark 的版本演进与新特性

随着技术发展，Spark 不断推出新的版本并引入诸多新特性。例如，Spark 3.0 引入了自适应查询执行（Adaptive Query Execution），可在查询执行过程中动态调整执行计划，优化性能；DataFrame API 支持更多数据类型和操作，提升了数据处理的便利性。新版本还在性能优化、机器学习算法增强、流处理能力提升等方面持续改进。关注 Spark 的版本演进和新特性，有助于企业及时采用最新技术，提升数据处理效率和应用竞争力。

2025-05-14 09:03:36 263

原创 Spark 未来发展趋势

未来，Spark 将继续在性能优化、与新兴技术融合等方面发展。在性能方面，进一步优化内存管理和任务调度，提高计算效率。在技术融合上，加强与人工智能、区块链等技术的结合，拓展应用场景。例如，将 Spark 与深度学习框架集成，实现大规模数据的端到端机器学习；探索 Spark 在区块链数据处理中的应用，保障数据的可信和安全。此外，Spark 还将更加注重易用性和生态建设，降低使用门槛，吸引更多开发者和企业使用，巩固其在大数据处理领域的领先地位。

2025-05-14 09:03:22 263

原创什么是RDD

RDD（弹性分布式数据集）是Spark的核心抽象概念，以下将详细介绍RDD的相关信息。 ### 定义与基本概念 RDD是一个不可变的、分区的分布式数据集。它代表了一组不可变的、可并行操作的数据集合，这些数据被分割成多个分区，分布在集群的不同节点上。这使得RDD能够在分布式环境下高效地处理大规模数据。 ### 主要特性 - **弹性**：RDD具有弹性，主要体现在两个方面。一是存储的弹性，RDD的数据可以存储在内存或者磁盘中，当内存不足时，部分数据可以溢写到磁盘；二是容错的弹性，RDD通过记录血统信息（Lin

2025-05-14 09:01:23 381

原创创建RDD的方式

在Spark中，有多种方式可以创建RDD，下面为你详细介绍常见的创建方式。### 从集合中创建可以使用`SparkContext`的`parallelize`方法将一个Python列表、元组等集合类型的数据转换为RDD。### 从外部存储系统创建可以从多种外部存储系统创建RDD，如本地文件系统、HDFS、HBase、JSON文件等。常用的方法是`textFile`，它可以读取文本文件并将每一行作为一个元素创建RDD。### 从其他RDD转换创建对已有的RDD进行转换操作可以生成新的RDD。

2025-05-14 09:00:53 801

原创如何在idea中写spark程序。

使用`mvn package`或`sbt assembly`创建包含所有依赖的fat jar。.master("local[*]") // 本地模式，使用所有核心。.master("yarn") // 或 "spark://master:7077".master("local[*]") // 本地模式，使用所有核心。- 使用`spark.ui.port=4040`固定Web UI端口。- 设置`spark.logConf=true`查看完整配置。-- Spark SQL (如需使用) -->

2025-04-28 19:49:18 1331

原创如何搭建spark yarn 模式的集群集群。

调整YARN的`yarn.scheduler.maximum-allocation-mb`和`yarn.nodemanager.resource.memory-mb`- 增加`spark.executor.memory`和`spark.yarn.am.memory`配置。访问YARN Web UI：`http://<yarn-master-ip>:8088`- 确保`HADOOP_CONF_DIR`和`YARN_CONF_DIR`正确设置。### 5. 配置Spark-defaults.conf。

2025-04-28 19:45:27 346

原创 yarn的定义

这个锁文件确保了在不同的环境中，项目所使用的依赖版本是一致的，避免了因依赖版本不一致而导致的兼容性问题。- **概念**：Yarn是对npm（Node Package Manager）的替代和改进，用于在JavaScript项目中管理依赖项。- **特点** - **快速**：Yarn采用了并行安装和缓存机制，能够显著提高软件包的安装速度。它会在本地缓存已下载的包，下次安装相同的包时可以直接从缓存中获取，避免重复下载。- **安全**：Yarn在安装过程中会验证包的完整性和安全性，确保下载的包没有被篡改。

2025-04-28 19:43:44 252

原创 Hadoop的三大结构及各自的作用

综上所述，HDFS负责数据的存储，MapReduce负责数据的处理，YARN负责资源的管理和任务的调度，三者相互协作，构成了Hadoop的核心架构，为大规模数据处理提供了强大的支持。- **自动容错**：在计算过程中，如果某个节点出现故障，MapReduce框架会自动将该节点上的任务重新分配到其他节点上执行，保证了计算的可靠性。- **数据存储**：HDFS可以将大文件分割成多个数据块（Block），并将这些数据块分散存储在不同的节点上，以此实现大规模数据的存储。

2025-04-28 19:43:36 292

原创 yarn的三大组件及各自的作用

Yarn（Yet Another Resource Negotiator）是Hadoop 2.x引入的资源管理系统，它有三大核心组件，分别是ResourceManager、NodeManager和ApplicationMaster，以下是它们的具体作用： ### 1. ResourceManager（RM）它是YARN全局的资源管理器，负责整个集群的资源分配和调度，扮演着“指挥官”的角色。- **资源请求**：根据应用程序的需求，向ResourceManager请求所需的资源。

2025-04-28 19:43:18 403

原创 yarn的三个资源调度策略

**适用场景**：适合对资源公平性要求较高的场景，特别是在有多个小作业和大作业同时运行的情况下，可以保证小作业也能及时获得资源，提高系统的整体响应性能。- **适用场景**：适用于多用户、多租户的集群环境，不同用户或项目可以使用不同的队列，保证每个用户或项目都能获得一定的资源。例如，在一个企业级的大数据平台中，不同部门的用户可以使用不同的队列，每个部门的作业可以在自己的队列中按照顺序执行。- **优缺点**：优点是可以实现资源的隔离和共享，保证每个队列都能获得一定的资源，同时支持资源的动态调整；

2025-04-28 19:43:06 327

原创 spark和Hadoop之间的对比和联系

**Spark**：基于内存计算和有向无环图（DAG）的计算模型，数据可以在内存中进行缓存和处理，大大提高了计算速度，尤其适合处理迭代式算法、交互式查询和实时流数据处理等场景。- **Hadoop**：适合对大规模数据进行批处理，如数据仓库、ETL（Extract，Transform，Load）等任务，常用于离线数据分析和处理场景，对数据处理的实时性要求不高，但对数据的可靠性和可扩展性要求较高。- **Spark**：将数据缓存在内存中，避免了频繁的磁盘I/O，大大加快了数据处理速度。

2025-04-28 19:42:48 447

原创 mapreduce的工作原理

**Shuffle & Sort 阶段**：对 Map 输出进行排序和分组。- 示例：`reduce(k2, list(v2)) → list(v3)`- **Sort**：在 Reduce 节点上对所有接收到的键值对按键排序。- **Shuffle**：将 Map 输出传输到 Reduce 节点。- 示例：`map(k1, v1) → list(k2, v2)`- **Reduce 阶段**：对分组后的数据进行聚合计算。- 输入：`(word, [1,1,1,...])`

2025-03-31 20:09:24 726

原创 hadoop 集群的常用命令

4. `hadoop archive -archiveName <name> -p <parent> <src>* <dest>`: 创建Hadoop存档(HAR文件)3. `hdfs oev -p <type> -i <input> -o <output>`: 离线编辑日志查看器。- `hadoop fs -chown <owner>:<group> <path>`: 更改文件所有者。2. `hdfs oiv -p <type> -i <input> -o <output>`: 离线镜像查看器。

2025-03-31 20:07:37 402

原创 Linux常见操作命令

**`groupadd` / `groupdel`**: 添加/删除组。- **`useradd` / `userdel`**: 添加/删除用户。- **`top` / `htop`**: 显示系统进程和资源使用情况。- **`head` / `tail`**: 查看文件开头或结尾部分。- **`ifconfig` / `ip`**: 显示和配置网络接口。- **`more` / `less`**: 分页查看文件内容。- **`bg` / `fg`**: 后台/前台运行进程。

2025-03-03 19:33:33 265

原创 vi常见操作命令

取消注释 | `:起始行,结束行 s/^#//`（如 `:10,20 s/^#//` 取消 10-20 行注释） || 批量注释 | `:起始行,结束行 s/^/#/`（如 `:10,20 s/^/#/` 注释 10-20 行） || 查找文本 | `/keyword`（按 `n` 查找下一个，`N` 查找上一个） || 跳到第 N 行 | `:N`（如 `:10` 跳到第 10 行） || 复制多行 | `Nyy`（如 `3yy` 复制 3 行） || 保存并退出 | `:wq` 或 `ZZ` |

2025-03-03 19:31:24 334

原创虚拟机IP配置

（注意：`eth0` 是网卡名称，可能为 `ens33` 或其他名称，可通过 `ip a` 查看。- **NAT 模式**：虚拟机通过主机共享 IP，虚拟机可以访问外部网络，但外部无法直接访问虚拟机。- **仅主机模式 (Host-Only)**：虚拟机只能与主机通信，无法访问外部网络。- **桥接模式 (Bridged)**：虚拟机直接连接到物理网络，与主机在同一网段。#### **方法 1：使用 `nmtui`（文本界面工具）**#### **方法 3：使用 `nmcli` 命令**

2025-03-03 19:29:02 390

原创 vm+centos虚拟机

2. **点击“新建”**，输入虚拟机名称（如“CentOS 7”），选择操作系统类型（Linux）和版本（Red Hat 64-bit）。1. **加载 ISO 文件**：在虚拟机设置中，选择“存储”，将下载的 CentOS ISO 文件加载到虚拟光驱。3. **选择安装选项**：选择“Install CentOS 7”或“Install CentOS 8”。5. **开始安装**：点击“开始安装”，设置 root 密码和创建用户。- **软件选择**：选择“带 GUI 的服务器”或“最小安装”。

2025-03-03 19:25:21 383

原创如何安装配置虚拟机

**VirtualBox**（免费，适用于Windows、Linux、macOS）- **硬盘空间**：建议至少20GB，具体取决于操作系统和应用程序需求。3. **仅主机模式**：虚拟机与主机形成独立网络，不与外部通信。- **内存**：建议至少2GB，具体取决于操作系统需求。2. **桥接模式**：虚拟机获得独立IP，与主机在同一网络。- **许可证**：某些虚拟机软件和操作系统可能需要许可证。1. **NAT模式**：虚拟机共享主机IP，适合上网。- **Hyper-V**（Windows自带）

2025-02-19 11:23:45 656

2401_88311429的博客