不甘平钒-优快云博客

原创今日之总结

SQL JOIN操作与NULL值处理摘要： JOIN类型区别： INNER JOIN返回两表匹配的行（交集），不匹配数据被过滤 LEFT JOIN保留左表所有行，右表无匹配时填充NULL（左表全集） NULL值转换方法： COALESCE(字段,0)：标准SQL推荐方案 CASE WHEN 字段 IS NULL THEN 0 ELSE 字段 END：支持复杂逻辑 IFNULL(字段,0)：MySQL专用简写（注：全文98字，完整涵盖核心知识点）

2025-08-08 00:05:16 196

原创分布式电影语料 DF 统计系统

本研究对比了Hadoop MapReduce和Spark框架在文本处理任务中的性能表现。实验采用34万+条电影情节文本数据，使用Java实现MapReduce二次排序算法（包含词频计数与去重聚合），运行耗时19.5秒；PySpark实现通过RDD持久化和reduceByKey优化，耗时26.7秒。性能对比可视化显示MapReduce在本次任务中效率更高。实验环境包括HDFS存储、Linux/Windows系统，使用IDEA和PyCharm开发工具，完整呈现了分布式计算技术的实现与优化过程。

2025-07-08 14:22:08 698

原创大数据平台搭建与离线数据处理及数据可视化

本文介绍了一个基于Spark的大数据ETL处理方案。通过IDEA开发的Maven项目，使用Spark Core和Spark SQL 3.3.1进行数据抽取处理。代码实现从MySQL读取orders表数据，筛选两天前的订单记录，并写入Hive分区表test.d_p_t2中。程序配置了动态分区功能，以custkey作为分区字段。最终将打包的jar部署到Linux环境执行，完成从MySQL到Hive的数据抽取和转换过程。

2025-06-10 16:10:10 180