kurumi⊙∀⊙-优快云博客

原创 Ubuntu 虚拟机的安装

提示：首次启动建议分配至少。

2025-06-10 14:27:43 625

原创 MobaXterm报错 : Network error: Connection refused

使用其他SSH客户端（如PuTTY或OpenSSH）测试相同连接参数，排除MobaXterm特定问题。同时检查MobaXterm是否为最新版本。检查本地网络是否正常，尝试ping目标服务器地址或域名。网络不通可能导致连接被拒绝。确保防火墙或安全软件未拦截MobaXterm的网络访问。确认目标服务器的SSH服务正在运行且监听正确端口。使用telnet或nmap工具测试端口是否开放。如果是密钥认证方式，确保本地私钥文件权限为600，且公钥已正确添加到服务器的。参数启动SSH连接，查看详细错误日志。

2025-06-10 14:25:27 891

原创 Ubuntu 基本配置

设置系统语言环境（如选择。

2025-06-10 14:24:36 252

原创 MobaXterm 远程连接工具

该工具同时支持多标签管理、远程进程监控等高级功能，适合需要同时维护多台服务器的系统管理员使用。建议初次使用后保存常用会话配置，后续可通过书签快速连接。MobaXterm 是 Windows 平台下功能强大的远程连接工具，集成多协议支持和便捷的服务器管理功能。会话管理 • 保存常用连接：右键会话标签 → Bookmark session • 分组管理：创建文件夹归类不同项目服务器。认证方式 ✔ 密码认证：直接输入服务器密码 ✔ 密钥认证：加载私钥文件（.ppk格式）二、基础连接步骤（以 SSH 为例）

2025-06-10 14:23:26 788

原创 Hadoop 伪分布集群环境搭建（1）

通过以上步骤，你可以在单机上成功搭建 Hadoop 伪分布式集群环境，并进行基本的测试和验证。：推荐使用 CentOS 7 或 Ubuntu 20.04。：确保防火墙已关闭或放行 Hadoop 使用的端口。：下载 Hadoop 3.3.x 版本。：安装 JDK 8 或更高版本。文件，配置静态 IP。：确保公钥已正确复制到。中的存储路径是否正确。

2025-06-10 14:21:35 787

原创 Hadoop 伪分布式集群环境搭建(2): HDFS 与 YARN 环境搭建

如果 Hadoop 服务无法启动，可能是防火墙阻止了端口访问。可以临时关闭防火墙或配置防火墙允许 Hadoop 端口（如 9000、8080 等）。通过以上步骤，你可以在单机上成功搭建 Hadoop 伪分布式集群环境，并启动 HDFS 和 YARN 服务。：确保 SSH 服务已安装并运行，且支持免密登录。：确保 Java 8 或更高版本已正确安装，并且。：确保已安装 JDK 8 或更高版本。：已下载并解压 Hadoop 安装包。

2025-06-10 14:18:23 390

原创 Hadoop 伪分布式集群环境搭建(3):Spark单机环境搭建与交互式开发

通过以上步骤，你可以在 Hadoop 伪分布式集群环境中成功搭建并测试 Spark 单机环境，并进行交互式开发。，选择预编译的 Spark 版本（例如 Spark 3.3.2 预编译版）。在 PySpark Shell 中，你可以直接编写和运行 Spark 代码。：已搭建 Hadoop 伪分布式集群，HDFS 服务正常运行。：确保 Spark 版本与 Hadoop 版本兼容。：如果遇到连接问题，检查防火墙设置。：已安装并配置 JDK。

2025-06-10 14:16:23 1725

原创 Hadoop 伪分布式集群环境搭建(4):安装配置Python3.6与PySpark

Ubuntu 20.04 默认预装 Python3.8，需保留系统原有版本，避免影响依赖 Python3.8 的其他组件（如系统工具或 Hadoop 生态工具）。通过以上步骤，你可以在 Hadoop 伪分布式集群环境中成功安装并配置 Python3.6 与 PySpark，确保它们能够正常运行并协同工作。：已搭建 Hadoop 伪分布式集群，HDFS 服务正常运行（需提前验证。：避免卸载系统 Python3.8，否则可能导致 apt 依赖错误。：若版本不符，检查环境变量或重新加载配置。

2025-06-10 14:14:22 502

原创 Spark RDD 常用操作练习（2）

通过以上练习，你可以掌握 Spark RDD 的常用操作，包括创建 RDD、映射、过滤、归并、分组、聚合、排序、持久化以及保存结果等。这些操作是 Spark 编程的基础，能够帮助你高效地处理分布式数据。

2025-06-10 14:12:18 1590

原创 Kafka安装与测试指南

如果需要高可用性部署，可以参考 Kafka 官方文档或使用 Docker 部署 Kafka 集群。通过以上步骤，你可以完成 Kafka 的安装和基本测试，确保 Kafka 环境正常运行。Kafka 依赖于 Java 环境，因此需要先安装 JDK 1.8 或更高版本。从 Apache Kafka 官网下载最新版本的 Kafka。在生产环境中，建议使用独立的 Zookeeper 集群。进入 Kafka 安装目录，修改配置文件。使用 Kafka 提供的性能测试工具。修改 Kafka 配置文件。

2025-06-10 14:09:44 537

原创 PySpark开发环境搭建全指南

确保系统中已安装 Python 3.6 或更高版本（建议使用 Python 3.8 或 3.9）。如果 PySpark 报错找不到 Java 环境，检查 Java 的安装路径是否已添加到系统的 PATH 环境变量中。通过以上步骤，你将能够成功搭建 PySpark 开发环境，并开始使用 PySpark 进行数据分析和处理。如果一切正常，你将看到一个包含 Python 和 PySpark 的交互式环境。PySpark 依赖于 Java 环境，需要安装 JDK 8 或更高版本。

2025-06-10 14:05:50 893

原创 SparkSQL核心概念与基础操作详解

DataFrame 是一个分布式的数据容器，类似于关系型数据库中的表。它以列的形式组织数据，并且每列都有一个明确的数据类型。

2025-06-10 14:03:26 1546

原创 SparkSQL 性能优化策略

在进行 Join 操作之前，对数据进行采样，找出导致倾斜的 Key 值，并对其进行特殊处理。在查询优化阶段计算常量表达式的值，并将其缓存，避免在查询执行时重复计算。减少 Shuffle 操作的压力，例如通过外部服务处理 Shuffle。对于大表，使用列式存储格式（如 Parquet）并按分区键进行分区。方法将频繁访问的数据缓存在内存中，避免重复读取磁盘数据。合理设置 Shuffle 分区数，避免过多或过少的分区。对于写入操作，合理设置分区键，避免过多的小文件。合理选择分区键，避免过多或过少的分区。

2025-06-10 14:01:22 254

原创 SparkSQL实战案例与系统集成

通过以上实战案例和系统集成的介绍，您可以更好地理解和应用 SparkSQL 来处理实际问题。：计算每个用户每月的访问量，并按月累计计算访问量。：在 Spark 中启用 Hive 支持，需要在。：计算每年的销售单数和销售总额。：统计文件中每个单词出现的次数。启动 Spark 应用程序。

2025-06-10 13:58:44 716

原创 CentOS7与JDK8虚拟机安装与配置指南

完成以上步骤后，您的 CentOS 7 虚拟机将具备固定的 IP 地址和主机名，支持 SSH 免密登录，并且安装配置好了 JDK 8 环境。设置虚拟机名称、选择操作系统类型为 Linux，版本为 CentOS。将 CentOS 7 的 ISO 镜像文件挂载到虚拟机的虚拟光驱。启动虚拟机，根据提示进行安装，选择语言、时区、安装目标设备等选项。分配合适的内存和硬盘空间，内存建议≥2GB，硬盘≥20GB。完成安装后，重启虚拟机，使用 root 用户登录。文件，添加虚拟机的 IP 地址与主机名的映射。

2025-06-10 13:56:38 255

qq_49187368的博客