大数据-Hadoop-Spark

本文对比了Hadoop和Spark两大大数据处理框架。Hadoop作为可靠且可扩展的开源分布式计算框架,通过MapReduce实现了大规模数据的并行处理。而Spark则以其速度优势和易用性著称,提供了高性能的批处理和流数据处理能力,同时支持多种编程语言。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://www.jianshu.com/p/831f396a1564 (Hadoop Spark的面经)

Hadoop

可靠的、可扩展的,开源的分布式计算框架
可以使用简单的编程,跨计算机集群,处理大型数据集合。 目的就是,将单个服务器扩展成上千个机器组成的一个集群,为大数据提供计算服务。 其中, 每个机器都提供本地计算和存储服务。

Hadoop工程包括很多模块:

Hive: 提供数据汇总和特定查询的数据仓库。
Spark:用于Hadoop数据的快速通用计算引擎,支付广泛应用的,简单易懂的编程模型,包含ETL\机器学习、流处理和图计算。
ZooKeeper:给分布式应用,提供高性能的协同服务系统。
HBase: 一种支持存储大型表的 结构化存储的可扩展的分布式数据库。
MapReduce: 计算引擎。

MapReduce

Hadoop的MapReduce 是第一代计算引擎, Spark是第二代计算引擎。
MapReduce将复杂的并行计算,抽象到两个函数: Map函数,和 Reduce函数。

在这里插入图片描述
 MapReduce的核心是“分而治之”策略。数据在其MapReduce的生命周期中过程中需要经过六大保护神的洗礼,分别是:Input、Split、Map、Shuffule、Reduce和Output。
在这里插入图片描述

https://www.cnblogs.com/wing1995/p/9300120.html

Spark
  1. 速度快, 查询优化器、 DAG调度器、 物理执行引擎,高性能的实现批处理和流数据处理。
  2. 易用性, 可以使用java、scala、python、 R、 SQL快速的写Spark应用。
内容概要:本文介绍了奕斯伟科技集团基于RISC-V架构开发的EAM2011芯片及其应用研究。EAM2011是一款高性能实时控制芯片,支持160MHz主频和AI算法,符合汽车电子AEC-Q100 Grade 2和ASIL-B安全标准。文章详细描述了芯片的关键特性、配套软件开发套件(SDK)和集成开发环境(IDE),以及基于该芯片的ESWINEBP3901开发板的硬件资源和接口配置。文中提供了详细的代码示例,涵盖时钟配置、GPIO控制、ADC采样、CAN通信、PWM输出及RTOS任务创建等功能实现。此外,还介绍了硬件申领流程、技术资料获取渠道及开发建议,帮助开发者高效启动基于EAM2011芯片的开发工作。 适合人群:具备嵌入式系统开发经验的研发人员,特别是对RISC-V架构感兴趣的工程师和技术爱好者。 使用场景及目标:①了解EAM2011芯片的特性和应用场景,如智能汽车、智能家居和工业控制;②掌握基于EAM2011芯片的开发板和芯片的硬件资源和接口配置;③学习如何实现基本的外设驱动,如GPIO、ADC、CAN、PWM等;④通过RTOS任务创建示例,理解多任务处理和实时系统的实现。 其他说明:开发者可以根据实际需求扩展这些基础功能。建议优先掌握《EAM2011参考手册》中的关键外设寄存器配置方法,这对底层驱动开发至关重要。同时,注意硬件申领的时效性和替代方案,确保开发工作的顺利进行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值