
大数据
文章平均质量分 93
断线纸鸢张
这个作者很懒,什么都没留下…
展开
-
ubuntu20安装Spark和pyspark的简单使用
Hadoop存在如下一些缺点:表达能力有限、磁盘IO开销大、延迟高、任务之间的衔接涉及IO开销、在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题。...原创 2022-08-17 19:14:47 · 2643 阅读 · 0 评论 -
ubuntu20单主机安装hadoop,python的简单操作
• Hadoop是Apache基金会开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。• Hadoop框架最核心技术包括:Common、HDFS、MapReduce和YARN。HDFS为海量的数据提供了分布式存储,MapReduce为海量的数据提供分布式计算,YARN为海量的数据提供分布式资源调度框架。common(工具类):包括Hadoop常用的工具类,由原来的Hadoopcore部分更名而来。...原创 2022-08-17 19:08:10 · 1114 阅读 · 0 评论