数据处理方式,线程与进程,多任务,Spark与MR的区别

木鬼与槐

于 2024-10-09 10:05:32 发布

阅读量773

点赞数 15

分类专栏： spark 文章标签： spark 多任务

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_58305115/article/details/142746583

版权

目录

数据处理的方式有哪些

单机数据处理

集群数据处理

分布式计算框架

ApplicationMaster

Spark分布式计算类别

进程与线程的区别

进程是计算时分配资源的最小单位

线程是执行计算任务的最小任务

多进程的执行效率没有多线程的执行效率高

Spark和MapReduce的区别

数据处理的方式有哪些

单机数据处理

依赖单个计算机的资源,处理的数据量较少,当数据量过大时,无法执行

集群数据处理

采用分布式技术,借助分布式服务实现海量数据处理

分布式存储 HDFS : 主-NameNode 从-DataNode
分布式资源调度 Yarn : 主-ResourceManager 从-NodeManager

分布式计算框架

MapReduce

需要开发人员编写计算代码
MapReduce采用的是多任务方式（进程）进行分布式计算，每个计算任务运行在不同的服务器上
MapReduce包含Map和Reduce两个部分，两个部分分别以进程的方式运行
Map运行的数量由谁决定？
- 默认情况下，split切割的数据会给到Map，而split默认切割一个块的的数据，所以，一个块对应一个map
Reduce运行数量？
- 默认情况下，根据计算的数据量自动决定产生多少个reduce
- hive在进行计算时，可以通过set进行设置
- 指定的reduce个数决定了分区数，分区数和reudce个数是一致的

ApplicationMaster

ApplicationMaster管理MapReduce的计算

Spark分布式计算类别

spark有很多部署方式,不同的部署方式决定spark计算时的资源调度方式

Local模式使用单机资源
使用master参数指定资源调度方式默认 loca

最低0.47元/天解锁文章

博客等级

码龄4年

147
原创

1972
点赞

1173
收藏

1499
粉丝

关注

私信

热门文章

分类专栏

技术栈 1篇
大数据 5篇
数据分析 18篇
spark 16篇
python 11篇
部署 1篇
虚拟机 1篇
Hadoop生态圈 7篇
MySQL练习题 82篇
MYSQL 9篇

展开全部收起

上一篇：: Spark练习-统计不同性别的年龄总和,统计不同性别不同年龄的年龄平均值

下一篇：: Python(十)-面向过程,面向对象,类和对象

最新评论

Spark算子使用-Map,FlatMap,Filter,diatinct,groupBy,sortBy
小王毕业啦: 这篇博主的文章真的让我大开眼界，对于Spark算子的使用有了全新的认识。博主对于Map,FlatMap,Filter,distinct,groupBy,sortBy这些算子的解析非常详细，让我受益匪浅。文章逻辑清晰，用词精准，展现出博主深厚的专业功底。希望博主能继续分享更多类似优质内容，也愿意接受博主的指导，一起共同进步。衷心感谢博主的辛勤付出和支持！
Python(八)-异常
凡梦_leo: 厉害,国庆都不带休息的
MySQL高阶1843-可疑银行账户
穷苦书生_万事愁: 博主的这篇《MySQL高阶1843-可疑银行账户》文章内容十分深入，让我对这个主题有了全新的认识。博主的细节描写非常到位，让我感受到了博主的深厚功底和专业知识。期待博主未来能够持续分享更多类似的好文，希望能够得到博主的指导，共同进步。非常感谢博主的无私分享和支持！
Python(三)-流程控制
凡梦_leo: 大到一个复杂的程序,小到一个小的脚本都离不开三种语句: 1,定义语句 2,选择语句 3,循环语句
虚拟机的安装-详细教程
奋斗小椰子: 太太太太太有实例了吧!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。