kato wentaro-优快云博客

原创 Hadoop+Spark Standalone分布式集群环境搭建完整指南

大数据处理离不开分布式计算框架，Hadoop和Spark是目前最流行的两种解决方案。本文将手把手教你从零开始搭建一个Hadoop+Spark Standalone模式的分布式集群环境，包含详细步骤和常见问题解决方法。通过本文的详细步骤，您已经成功搭建了一个Hadoop+Spark Standalone的分布式集群环境。这个环境可以用于：大数据存储与处理(HDFS)分布式计算(MapReduce)内存计算(Spark)大数据学习与开发。

2025-06-09 21:28:53 1832

原创 CentOS7+JDK8虚拟机安装

当VMware安装在Windows操作系统中时，会自动在Windows操作系统中创建名为VMnet1和VMnet8的两个虚拟网卡，其中VMnet8虚拟网卡的地址可以在命令行提示符窗体中使用ipconfig命令进行查看当VMware安装在Windows操作系统中时，会自动在Windows操作系统中创建名为VMnet1和VMnet8的两个虚拟网卡，其中VMnet8虚拟网卡的地址可以在命令行提示符窗体中使用ipconfig命令进行查看。

2025-06-09 21:15:16 280

原创 SparkSQL离线数据处理实战指南

SparkSQL是Spark生态系统中的一个模块，主要用于结构化数据处理。它提供了：DataFrame API：类似Python Pandas的操作接口SQL支持：可以直接运行SQL查询多种数据源集成：Hive、JSON、Parquet、JDBC等优化器：Catalyst优化引擎。

2025-06-09 20:58:44 623

原创 PySpark开发环境搭建全攻略：从零开始构建大数据分析平台

新建项目时选择Existing interpreter。# 推荐使用Miniconda管理Python环境。# 可选：安装jupyterlab用于交互开发。安装Python扩展和Jupyter扩展。指定conda环境的Python解释器。内存：8GB（16GB以上更佳）建议使用集群部署，至少3节点。# 编辑~/.bashrc。每个节点16GB内存起步。硬盘：50GB可用空间。# 安装PySpark。# 启动Jupyter。# 读取HDFS数据。# 设置允许远程访问。

2025-06-09 20:51:05 822

原创 TopN问题分析和单元实践训练

TopN问题指从大规模数据集中找出按某种规则排序的前N条记录，例如：销量最高的10款商品最近登录的100个活跃用户点击量前20的新闻文章使用堆结构替代全排序合理设置分区数避免数据倾斜对热点Key进行特殊处理考虑使用近似算法（当N远小于数据量时）缓存复用中间结果。

2025-06-09 20:18:00 570

原创 Spark RDD离线数据计算

批量处理：处理静态的、完整的数据集高吞吐：适合大规模数据计算延迟不敏感：分钟级到小时级的计算延迟复杂分析：支持多轮迭代计算。

2025-06-09 20:06:27 568

原创 RDD的后续问题的解决与优化

x[1][0] * math.log(total_docs / x[1][1]) # TF-IDF值。word_counts.coalesce(1).saveAsTextFile(output_path) # 合并为1个文件。word_counts = word_counts.repartition(32) # 增大分区数提高并行度。word_counts = word_counts.coalesce(8) # 减小分区数减少小文件。x[0][0], # 文档名。# 计算词频(TF)

2025-06-09 18:49:51 669

原创 RDD转换行动操作和词频统计

特点：惰性执行，只记录转换关系而不立即计算返回值：总是返回新的RDD示例：map()、filter()、flatMap()、reduceByKey()等。

2025-06-09 18:48:29 676

原创 RDD的创建和转换操作

RDD（Resilient Distributed Dataset）是Spark中最基本的数据抽象，代表一个不可变可分区的可并行计算的元素集合。弹性（Resilient）：自动从节点故障中恢复分布式（Distributed）：数据分布在集群节点上数据集（Dataset）：存储实际数据的容器python。

2025-06-09 18:38:51 1836

原创 Spark Streaming性能优化与可视化及环境部署

ssc = StreamingContext(sc, 5) # 5秒一批。# 使用mapWithState实现有状态计算。Kafka Direct API + 检查点。启用WAL（Write Ahead Log）将结果写入时序数据库（如InfluxDB）# 提交Spark Streaming作业。# 设置DStream...优化处理逻辑（减少shuffle）使用可靠数据源（如Kafka）# 根据数据量和处理能力调整。配置Grafana数据源。使用更高效的数据结构。

2025-06-09 18:26:57 813

原创 Spark Streaming流数据计算

Spark Streaming是Apache Spark核心API的扩展，用于实现可扩展、高吞吐、容错的实时数据流处理。它采用"微批处理"架构，将实时数据流划分为一系列小批量数据（DStream），然后使用Spark引擎处理这些批次。

2025-06-09 18:22:58 554

原创三、数据清洗与预处理的分析与可视化

df['order_weekday'] = df['order_date'].dt.weekday + 1 # 1-7表示周一到周日。df = pd.read_csv('美妆订单数据.csv', parse_dates=['order_date'])plt.rcParams['font.sans-serif'] = ['SimHei'] # 解决中文显示问题。plt.legend(title='类别')plt.legend(title='类别')plt.title('美妆用户性别分布')

2025-06-09 18:15:36 1612

原创美妆订单数据生成与写入

'香水': ['Jo Malone', 'Gucci', 'Hermès', 'Versace', 'BVLGARI'],'彩妆': ['MAC', 'YSL', 'Dior', 'Chanel', 'NARS'],'护肤': ['雅诗兰黛', '兰蔻', 'SK-II', '资生堂', '欧莱雅'],'护发': ['卡诗', '欧舒丹', '施华蔻', '吕', 'Aveda'],categories = ['护肤', '彩妆', '香水', '护发', '工具']# 每个订单1-5个商品。

2025-06-09 18:11:00 478

原创字段的查询

2.全字段查询 spark.sql("select * from my_website").show(10,False)db.users.find({ age: { $gt: 25 }, city: "北京" })1.读取mysql中jdbc数据源。

2025-06-09 18:00:11 205

原创安装并测试Kafka和测试netcat(NC)网络通信

打开新的终端(消费者b),在终端(生产者a)中输入内容,显示测试成功。创建mytopic主题并对kafka做简单的测试。测试netcat能否正常运行。并启动zookeeper服务。读取kafka数据流。

2025-04-20 21:14:22 251

原创 Spark大数据环境搭建作业

随后自动进入Ubuntu20.04界面更新软件源并安装openssh-server、vim，随后禁用防火墙。

2025-03-02 17:42:20 561 1

2401_84460368的博客