- 博客(16)
- 收藏
- 关注
原创 Hadoop+Spark Standalone分布式集群环境搭建完整指南
大数据处理离不开分布式计算框架,Hadoop和Spark是目前最流行的两种解决方案。本文将手把手教你从零开始搭建一个Hadoop+Spark Standalone模式的分布式集群环境,包含详细步骤和常见问题解决方法。通过本文的详细步骤,您已经成功搭建了一个Hadoop+Spark Standalone的分布式集群环境。这个环境可以用于:大数据存储与处理(HDFS)分布式计算(MapReduce)内存计算(Spark)大数据学习与开发。
2025-06-09 21:28:53
1832
原创 CentOS7+JDK8虚拟机安装
当VMware安装在Windows操作系统中时,会自动在Windows操作系统中创建名为VMnet1和VMnet8的两个虚拟网卡,其中VMnet8虚拟网卡的地址可以在命令行提示符窗体中使用ipconfig命令进行查看当VMware安装在Windows操作系统中时,会自动在Windows操作系统中创建名为VMnet1和VMnet8的两个虚拟网卡,其中VMnet8虚拟网卡的地址可以在命令行提示符窗体中使用ipconfig命令进行查看。
2025-06-09 21:15:16
280
原创 SparkSQL离线数据处理实战指南
SparkSQL是Spark生态系统中的一个模块,主要用于结构化数据处理。它提供了:DataFrame API:类似Python Pandas的操作接口SQL支持:可以直接运行SQL查询多种数据源集成:Hive、JSON、Parquet、JDBC等优化器:Catalyst优化引擎。
2025-06-09 20:58:44
623
原创 PySpark开发环境搭建全攻略:从零开始构建大数据分析平台
新建项目时选择Existing interpreter。# 推荐使用Miniconda管理Python环境。# 可选:安装jupyterlab用于交互开发。安装Python扩展和Jupyter扩展。指定conda环境的Python解释器。内存:8GB(16GB以上更佳)建议使用集群部署,至少3节点。# 编辑~/.bashrc。每个节点16GB内存起步。硬盘:50GB可用空间。# 安装PySpark。# 启动Jupyter。# 读取HDFS数据。# 设置允许远程访问。
2025-06-09 20:51:05
822
原创 TopN问题分析和单元实践训练
TopN问题指从大规模数据集中找出按某种规则排序的前N条记录,例如:销量最高的10款商品最近登录的100个活跃用户点击量前20的新闻文章使用堆结构替代全排序合理设置分区数避免数据倾斜对热点Key进行特殊处理考虑使用近似算法(当N远小于数据量时)缓存复用中间结果。
2025-06-09 20:18:00
570
原创 Spark RDD离线数据计算
批量处理:处理静态的、完整的数据集高吞吐:适合大规模数据计算延迟不敏感:分钟级到小时级的计算延迟复杂分析:支持多轮迭代计算。
2025-06-09 20:06:27
568
原创 RDD的后续问题的解决与优化
x[1][0] * math.log(total_docs / x[1][1]) # TF-IDF值。word_counts.coalesce(1).saveAsTextFile(output_path) # 合并为1个文件。word_counts = word_counts.repartition(32) # 增大分区数提高并行度。word_counts = word_counts.coalesce(8) # 减小分区数减少小文件。x[0][0], # 文档名。# 计算词频(TF)
2025-06-09 18:49:51
669
原创 RDD转换行动操作和词频统计
特点:惰性执行,只记录转换关系而不立即计算返回值:总是返回新的RDD示例:map()、filter()、flatMap()、reduceByKey()等。
2025-06-09 18:48:29
676
原创 RDD的创建和转换操作
RDD(Resilient Distributed Dataset)是Spark中最基本的数据抽象,代表一个不可变可分区的可并行计算的元素集合。弹性(Resilient):自动从节点故障中恢复分布式(Distributed):数据分布在集群节点上数据集(Dataset):存储实际数据的容器python。
2025-06-09 18:38:51
1836
原创 Spark Streaming性能优化与可视化及环境部署
ssc = StreamingContext(sc, 5) # 5秒一批。# 使用mapWithState实现有状态计算。Kafka Direct API + 检查点。启用WAL(Write Ahead Log)将结果写入时序数据库(如InfluxDB)# 提交Spark Streaming作业。# 设置DStream...优化处理逻辑(减少shuffle)使用可靠数据源(如Kafka)# 根据数据量和处理能力调整。配置Grafana数据源。使用更高效的数据结构。
2025-06-09 18:26:57
813
原创 Spark Streaming流数据计算
Spark Streaming是Apache Spark核心API的扩展,用于实现可扩展、高吞吐、容错的实时数据流处理。它采用"微批处理"架构,将实时数据流划分为一系列小批量数据(DStream),然后使用Spark引擎处理这些批次。
2025-06-09 18:22:58
554
原创 三、数据清洗与预处理的分析与可视化
df['order_weekday'] = df['order_date'].dt.weekday + 1 # 1-7表示周一到周日。df = pd.read_csv('美妆订单数据.csv', parse_dates=['order_date'])plt.rcParams['font.sans-serif'] = ['SimHei'] # 解决中文显示问题。plt.legend(title='类别')plt.legend(title='类别')plt.title('美妆用户性别分布')
2025-06-09 18:15:36
1612
原创 美妆订单数据生成与写入
'香水': ['Jo Malone', 'Gucci', 'Hermès', 'Versace', 'BVLGARI'],'彩妆': ['MAC', 'YSL', 'Dior', 'Chanel', 'NARS'],'护肤': ['雅诗兰黛', '兰蔻', 'SK-II', '资生堂', '欧莱雅'],'护发': ['卡诗', '欧舒丹', '施华蔻', '吕', 'Aveda'],categories = ['护肤', '彩妆', '香水', '护发', '工具']# 每个订单1-5个商品。
2025-06-09 18:11:00
478
原创 字段的查询
2.全字段查询 spark.sql("select * from my_website").show(10,False)db.users.find({ age: { $gt: 25 }, city: "北京" })1.读取mysql中jdbc数据源。
2025-06-09 18:00:11
205
原创 安装并测试Kafka和测试netcat(NC)网络通信
打开新的终端(消费者b),在终端(生产者a)中输入内容,显示测试成功。创建mytopic主题并对kafka做简单的测试。测试netcat能否正常运行。并启动zookeeper服务。读取kafka数据流。
2025-04-20 21:14:22
251
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1