
hadoop生态圈
大帅帅帅呆呆
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Mapreduce,hive,spark实现Wordcount
实现worldcount在给定的文件中,统计输出每一个单词出现的次数mapreduce:need jar : log4j-core ,junit, hadoop-common ,hadoop-client,hadoop-hdfs- - WCdriver类 psvm //创建Job实例来提供默认配置 Configuration con = new Configu...原创 2019-09-21 14:13:38 · 437 阅读 · 0 评论 -
Hadoop生态圈原理
Hadoop生态圈原理整理Hadoop主要架构:HDFS,Mapreduce,YarnHdfs功能组件 namenode作用:1.管理文件目录结构 fsimage和Edits 2.管理数据节点Datanode DataNode的作用:具体存储数据的节点 SecondaryNamenode的作用:辅助生成目录镜像,定期加载fsimage和Edits合成新的fsimage返回name...原创 2019-09-21 14:39:11 · 451 阅读 · 1 评论 -
HIve,Spark性能优化
HIve,Spark性能优化HIve 性能优化一:map阶段的优化:主要是控制hive任务中的map数量,确定合适的map数,以及每个map处理的合适的数据量1.适当减少map数的情况:当任务中有许多的小文件,产生很多map,一个map任务的启动时间和初始化时间远远大于逻辑处理的事件,造成资源的浪费。合并方法如下:set mapred.max.split.size=100000000;/...原创 2019-09-22 10:15:36 · 1374 阅读 · 1 评论