Xuepaoa-优快云博客

原创在 Docker 环境中集成 Kaggle 和 Spark，实现数据自由

本文介绍了如何在Spark容器环境中配置Kaggle API访问并分析数据集的完整流程：首先获取Kaggle API密钥并配置容器访问权限，然后安装必要的Python插件和工具；接着演示了使用Kaggle CLI下载AI职位数据集的操作步骤；最后通过SparkSQL加载CSV数据进行分析，并实现容器数据的持久化存储。该方法解决了大数据学习中缺乏合适数据集的问题，为数据分析提供了便利的数据获取途径。

2025-06-26 15:29:35 2248

原创基于 Docker 的 Apache Spark 4.0.0 环境搭建与sparksql的使用教程

《Docker搭建Apache Spark 4.0.0环境指南》本文详细介绍了使用Docker搭建Apache Spark 4.0.0环境的完整流程。主要内容包括：环境准备（Docker安装与镜像加速器配置）、Spark镜像构建（从GitHub获取官方仓库并构建）、spark-sql环境启动与验证（执行示例查询和手动创建测试数据）。教程还提供了常见问题解决方案，如构建失败处理、路径错误排查和非root用户权限问题。通过本指南，读者可以快速搭建Spark开发环境并进行基础SQL操作验证。

2025-06-25 17:40:53 1475 1

原创 Hadoop 分布式计算实战：从环境搭建到 MapReduce 作业全流程解析

本文围绕 Hadoop 集群展开实操教学，从基础环境准备（版本检查、HDFS 格式化、服务启动），到 HDFS 文件操作（目录、文件的增删查），再到 MapReduce 作业（WordCount 提交、监控与结果验证）及 Shuffle 阶段分析，助读者体验大数据处理流程。

2025-06-24 21:52:47 1009

原创简单理解HDFS原理

HDFS是分布式文件系统，专为存储处理海量数据设计。其核心架构包括唯一NameNode（管理元数据）和多个DataNode（存储数据块）。工作原理是将大文件切分为128MB的块，默认复制3份存储于不同节点，实现负载均衡与容错。具有"一次写入多次读取"特性，强调高吞吐而非低延迟，采用移动计算而非移动数据的理念。系统自动检测故障并复制缺失副本，确保数据完整性。HDFS通过普通硬件集群提供高可靠存储，广泛应用于日志分析、数据仓库等大数据场景，是构建大数据技术栈的基础组件。

2025-06-20 12:53:07 2187

原创 Docker搭建Hadoop分布式学习环境以及演示简单的文件上传

摘要：本文介绍了在Win11系统WSL2环境下通过Docker部署Hadoop集群的完整流程。主要内容包括：1)基础环境配置（Docker安装、用户组设置）；2)获取GitHub开源项目hadoop-cluster-docker；3)镜像拉取与容器启动；4)集群服务启停与WordCount测试；5)HDFS文件操作演示。文档特别提供了网络配置、权限处理等常见问题解决方案，并强调容器化技术对大数据学习效率的提升作用。所有操作均通过标准化脚本实现，适合开发者快速搭建测试环境。

2025-06-19 20:53:52 1745

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 在 Docker 环境中集成 Kaggle 和 Spark，实现数据自由

原创 基于 Docker 的 Apache Spark 4.0.0 环境搭建与sparksql的使用教程

原创 Hadoop 分布式计算实战：从环境搭建到 MapReduce 作业全流程解析

原创 简单理解HDFS原理

原创 Docker搭建Hadoop分布式学习环境以及演示简单的文件上传

空空如也

空空如也

原创在 Docker 环境中集成 Kaggle 和 Spark，实现数据自由

原创基于 Docker 的 Apache Spark 4.0.0 环境搭建与sparksql的使用教程

原创简单理解HDFS原理