
hadoop
文章平均质量分 79
世界而世界
这个作者很懒,什么都没留下…
展开
-
【Hadoop】hive 简述及安装
Hadoop hive 简述及安装一、官网说明官网wiki文档-ConfluenceGetting StartedHomeThe Apache Hive™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried using SQL syntax.hive是一款软件,支持在大数据分布式原创 2020-12-15 00:45:31 · 503 阅读 · 0 评论 -
【Hadoop】GC 一次 Hadoop MR GC 蛮神奇的
GC 一次 Hadoop MR GC 蛮神奇的1 说明发现在资源有限的情况下,还是蛮容易接触到很多的问题,蛮有意思的。这次主要是搭建了hadoop小环境,测试用,给的资源极少。1台机器 2C4G2 GC 异常Java heap space堆溢出,发生在 map 阶段这种一般发生在 Xmx 不够的情况下,yang区或者old区都塞不下新创建的对象了后来打了 GC 日志最后发生了好几次 Full GC 但是堆里面没啥东西,才 2%ps:写文章的时候才发现都是 Alloca原创 2020-12-09 23:28:30 · 602 阅读 · 0 评论 -
【Hadoop】Yarn 使用 FairSchedule 提交 mr 任务
Hadoop Yarn 使用 FairSchedule 提交 mr 任务1 默认调度说明打开 yarn 的 UI 界面 (默认是http://localhost:8088/cluster/nodes)在 Scheduler 中查看情况,默认是 Capacity Scheduler2 Fair Scheduler 配置修改官方配置说明etc/hadoop/yarn-site.xml<!-- Scheduler Config --><!-- Yarn 使用 Fa原创 2020-12-09 23:25:40 · 312 阅读 · 0 评论 -
【Hadoop】Yarn Scheduler 调度器简述
Hadoop Yarn Scheduler 调度器简述一、综述调度器职能调度程序负责将资源分配给正在运行的程序,遵循约束(容量、队列等)纯调度,不进行监控、跟踪不能保证重启失败的任务(程序故障、硬件故障)会基于应用程序的资源需求进行调度抽象了容器的概念 Container原文 it does so based on the abstract notion of a resource Container which incorporates elements such as memor原创 2020-12-08 00:30:31 · 297 阅读 · 1 评论 -
【Hadoop】MR maptask 工作流程
Hadoop-MR maptask 工作流程RM 整体流程读取数据 k1,v1数据映射 k2,v2数据分区分区内排序分区内数据合并数据分组发送(shuffle)数据reduce数据输出保存maptask部分1个切片对应1个maptask一般是1个block对应1个切片读取对应切片的数据 k1,v1进行数据映射 k2,v2映射完的数据写入环形缓冲区,同时计算分区键。环形缓存区写满80%后,会将数据写入到临时文件,同时进行排序、合并。排序规则先按分区号,后按key。数据都原创 2020-12-06 23:25:56 · 890 阅读 · 0 评论 -
【大数据】Hadoop3集群搭建
Hadoop3集群搭建一、准备官方文档-Setting up a Single Node Cluster官网下载可以下载源码,下载后需要构建一下# 科学上网下载比较快,可以自己电脑下好了在上传到服务器wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0-src.tar.gz# 解压文件tar -zxvf hadoop-3.3.0-src.tar.gz# maven构建也可以直接下载安原创 2020-12-06 21:05:12 · 275 阅读 · 0 评论