- 博客(5)
- 收藏
- 关注
原创 数据库连接脚本汇总
在数据处理和分析项目中,常常需要与多种不同类型的数据库进行交互,以获取、存储和管理数据。本文档提供了使用 Python 连接多种常见数据库(MySQL、HBase、Redis、Doris、Oracle、Presto 等)的连接脚本示例,旨在为开发者提供便捷的数据库连接方式参考,以便在实际项目中能够快速集成不同数据库的操作功能。
2024-12-06 11:33:08
994
原创 Yarn的一些个人理解
对于yarn这个程序的理解主要是在于申请资源和进程管理 主要还是利用分布式来进行管理讲一个大数据处理任务 分为若干个小任务进行层层管理 实现分布式管理Yarn任务进程图ResourceManager : 资源管理RMApplication Master : 任务调度AMApplicationsManager : 任务调度ASMNodeManager : 节点管理,负责执行任务NM。
2024-12-03 09:59:53
709
原创 MapReduce流程,优势,劣势
它的计算过程需要将数据划分为多个子任务,并在多个计算节点上并行处理,这需要一定的时间。总的来说,MapReduce在处理大规模数据集方面具有明显的优势,但在编程复杂性、实时处理和流式数据处理等方面存在一些劣势。数据局部性限制:MapReduce的数据处理过程是基于数据本地化的,即尽量在数据所在的计算节点上进行处理。然而,在某些情况下,数据可能需要跨节点传输,这会增加网络开销和延迟。可扩展性和灵活性:MapReduce具有很好的可扩展性和灵活性,可以根据数据量和计算需求动态调整计算资源和存储资源。
2024-12-03 09:52:32
883
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅