自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Hive on spark 和Spark on Hive的区别

【代码】Hive on spark 和Spark on Hive的区别。

2024-12-10 10:58:23 1542

原创 数据库连接脚本汇总

在数据处理和分析项目中,常常需要与多种不同类型的数据库进行交互,以获取、存储和管理数据。本文档提供了使用 Python 连接多种常见数据库(MySQL、HBase、Redis、Doris、Oracle、Presto 等)的连接脚本示例,旨在为开发者提供便捷的数据库连接方式参考,以便在实际项目中能够快速集成不同数据库的操作功能。

2024-12-06 11:33:08 994

原创 Yarn的一些个人理解

对于yarn这个程序的理解主要是在于申请资源和进程管理 主要还是利用分布式来进行管理讲一个大数据处理任务 分为若干个小任务进行层层管理 实现分布式管理Yarn任务进程图ResourceManager : 资源管理RMApplication Master : 任务调度AMApplicationsManager : 任务调度ASMNodeManager : 节点管理,负责执行任务NM。

2024-12-03 09:59:53 709

原创 MapReduce流程,优势,劣势

它的计算过程需要将数据划分为多个子任务,并在多个计算节点上并行处理,这需要一定的时间。总的来说,MapReduce在处理大规模数据集方面具有明显的优势,但在编程复杂性、实时处理和流式数据处理等方面存在一些劣势。数据局部性限制:MapReduce的数据处理过程是基于数据本地化的,即尽量在数据所在的计算节点上进行处理。然而,在某些情况下,数据可能需要跨节点传输,这会增加网络开销和延迟。可扩展性和灵活性:MapReduce具有很好的可扩展性和灵活性,可以根据数据量和计算需求动态调整计算资源和存储资源。

2024-12-03 09:52:32 883

原创 Flink广播流的白话文理解

广播流的理解

2024-11-29 11:06:24 385

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除