- 博客(5)
- 收藏
- 关注
原创 在 Docker 环境中集成 Kaggle 和 Spark,实现数据自由
本文介绍了如何在Spark容器环境中配置Kaggle API访问并分析数据集的完整流程:首先获取Kaggle API密钥并配置容器访问权限,然后安装必要的Python插件和工具;接着演示了使用Kaggle CLI下载AI职位数据集的操作步骤;最后通过SparkSQL加载CSV数据进行分析,并实现容器数据的持久化存储。该方法解决了大数据学习中缺乏合适数据集的问题,为数据分析提供了便利的数据获取途径。
2025-06-26 15:29:35
2248
原创 基于 Docker 的 Apache Spark 4.0.0 环境搭建与sparksql的使用教程
《Docker搭建Apache Spark 4.0.0环境指南》 本文详细介绍了使用Docker搭建Apache Spark 4.0.0环境的完整流程。主要内容包括:环境准备(Docker安装与镜像加速器配置)、Spark镜像构建(从GitHub获取官方仓库并构建)、spark-sql环境启动与验证(执行示例查询和手动创建测试数据)。教程还提供了常见问题解决方案,如构建失败处理、路径错误排查和非root用户权限问题。通过本指南,读者可以快速搭建Spark开发环境并进行基础SQL操作验证。
2025-06-25 17:40:53
1475
1
原创 Hadoop 分布式计算实战:从环境搭建到 MapReduce 作业全流程解析
本文围绕 Hadoop 集群展开实操教学,从基础环境准备(版本检查、HDFS 格式化、服务启动 ),到 HDFS 文件操作(目录、文件的增删查 ),再到 MapReduce 作业(WordCount 提交、监控与结果验证 )及 Shuffle 阶段分析,助读者体验大数据处理流程。
2025-06-24 21:52:47
1009
原创 简单理解HDFS原理
HDFS是分布式文件系统,专为存储处理海量数据设计。其核心架构包括唯一NameNode(管理元数据)和多个DataNode(存储数据块)。工作原理是将大文件切分为128MB的块,默认复制3份存储于不同节点,实现负载均衡与容错。具有"一次写入多次读取"特性,强调高吞吐而非低延迟,采用移动计算而非移动数据的理念。系统自动检测故障并复制缺失副本,确保数据完整性。HDFS通过普通硬件集群提供高可靠存储,广泛应用于日志分析、数据仓库等大数据场景,是构建大数据技术栈的基础组件。
2025-06-20 12:53:07
2187
原创 Docker搭建Hadoop分布式学习环境以及演示简单的文件上传
摘要:本文介绍了在Win11系统WSL2环境下通过Docker部署Hadoop集群的完整流程。主要内容包括:1)基础环境配置(Docker安装、用户组设置);2)获取GitHub开源项目hadoop-cluster-docker;3)镜像拉取与容器启动;4)集群服务启停与WordCount测试;5)HDFS文件操作演示。文档特别提供了网络配置、权限处理等常见问题解决方案,并强调容器化技术对大数据学习效率的提升作用。所有操作均通过标准化脚本实现,适合开发者快速搭建测试环境。
2025-06-19 20:53:52
1745
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅