自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 今日之总结

SQL JOIN操作与NULL值处理摘要: JOIN类型区别: INNER JOIN返回两表匹配的行(交集),不匹配数据被过滤 LEFT JOIN保留左表所有行,右表无匹配时填充NULL(左表全集) NULL值转换方法: COALESCE(字段,0):标准SQL推荐方案 CASE WHEN 字段 IS NULL THEN 0 ELSE 字段 END:支持复杂逻辑 IFNULL(字段,0):MySQL专用简写 (注:全文98字,完整涵盖核心知识点)

2025-08-08 00:05:16 196

原创 分布式电影语料 DF 统计系统

本研究对比了Hadoop MapReduce和Spark框架在文本处理任务中的性能表现。实验采用34万+条电影情节文本数据,使用Java实现MapReduce二次排序算法(包含词频计数与去重聚合),运行耗时19.5秒;PySpark实现通过RDD持久化和reduceByKey优化,耗时26.7秒。性能对比可视化显示MapReduce在本次任务中效率更高。实验环境包括HDFS存储、Linux/Windows系统,使用IDEA和PyCharm开发工具,完整呈现了分布式计算技术的实现与优化过程。

2025-07-08 14:22:08 698

原创 大数据平台搭建与离线数据处理及数据可视化

本文介绍了一个基于Spark的大数据ETL处理方案。通过IDEA开发的Maven项目,使用Spark Core和Spark SQL 3.3.1进行数据抽取处理。代码实现从MySQL读取orders表数据,筛选两天前的订单记录,并写入Hive分区表test.d_p_t2中。程序配置了动态分区功能,以custkey作为分区字段。最终将打包的jar部署到Linux环境执行,完成从MySQL到Hive的数据抽取和转换过程。

2025-06-10 16:10:10 180

原创 去除在终端中运行spark打印的INFO信息

本人的spark版本是spark-3.3.1-bin-hadoop3的,不同版本的文件名称跟文件内容可能不一样,需要随机应变。

2023-05-08 10:47:05 1523 2

原创 Maxwell采集MySQL的binlog日志

提示:本文是在Linux上的操作。

2023-04-29 13:25:27 928 1

原创 编写 Scala 工程代码,将 MySQL 库中的表增量抽取到 Hive库中对应表中

本文仅仅简单介绍了操作步骤,很多经验都来自于b站和博客上的大佬,以及身边的同学和老师转化而来的,赶在2022年最后一天做出总结,希望对大家也有帮助。

2022-12-31 15:29:10 3588 23

原创 基本dos命令

基本dos命令

2022-12-17 17:13:04 249 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除