
hadoop
hadoop读写流程及优化
weixin_42130191
这个作者很懒,什么都没留下…
展开
-
hadoop工作经验
1.Lzo的压缩:Hadoop默认不支持LZO压缩,如果需要支持LZO压缩,需要添加jar包,并在hadoop的cores-site.xml文件中添加相关压缩配置。2.hadoop参数设置:1)在hdfs-site.xml文件中配置多目录,最好提前配置好,否则更改目录需要重新启动集群2)NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。dfs.namenode.handler.count=20 * log2(Cluster Size),比原创 2020-06-10 11:39:14 · 248 阅读 · 0 评论 -
yarn执行流程
yarn执行流程1、Client 向 RM 提交 job 对象申请运行应用程序2、RM 返回一个运行资源提交地址3、client 向地址提交切片信息 split,配置文件 xml 和 jar 包等运行资源4、应答 RM 资源提交完成,并申请运行 appmaster 程序5、RM 吧 appmaster 放在任务队列里等待空间的 NM 领取任务执行6、NM 领取任务后创建运行任务的 container 容器虚拟化 cpu 和内存并启动 APPmaster7、NM ...原创 2020-06-10 11:25:00 · 378 阅读 · 0 评论 -
hadoop对小文件问题
小文件的影响:(1)影响NameNode的寿命,因为文件元数据存储在NameNode的内存中(2)影响计算引擎的任务数量,比如每个小的文件都会生成一个Map任务小文件的优化:对小文件进行归档和压缩,(对外是整体,对内是一个一个文件)(小文件主要减少namenode存储空间(默认是150字节))。减少jvm的重用(小文件在处理时需要不停开关jvm,这样都在开关时间比运行时间还长一直开启,所以开启jvm的重用),还有小文件处理时还用conbinfileinputformat,这个作用是为了将多个原创 2020-06-10 10:46:08 · 144 阅读 · 0 评论 -
hadoop读写流程以及四种机制
hadoop读流程读流程:客户端通过 Distributed FileSystem 向 NameNode 请求下载文件,NameNode 通过查询元数据,找到文件块所在的 DataNode 地址。 挑选一台 DataNode(就近原则,然后随机)服务器,请求读取数据。 DataNode 开始传输数据给客户端(从磁盘里面读取数据输入流,以 Packet 为单位来做校验)。 客户端以 Packet(64k)为单位接收,先在本地缓存,然后写入目标文件。...原创 2020-06-10 10:33:26 · 1086 阅读 · 0 评论