
hadoop
猛肝自然强
这个作者很懒,什么都没留下…
展开
-
hadoop集群配置ssh免密登录的方法
SSH无密登录配置1)配置ssh(1)基本语法ssh另一台电脑的ip地址(2)ssh连接时出现Host key verification failed的解决方法[user1@hadoop102 ~]$ ssh hadoop103出现:The authenticity of host '192.168.1.103 (192.168.1.103)' can't be established.RSA key fingerprint is cf:1e:de:d7:d0:4c:2d:98:60:b原创 2020-11-15 13:11:52 · 729 阅读 · 0 评论 -
Hadoop高可用中NN连接不上JN的问题
自动故障转移配置好以后,然后使用start-dfs.sh群起脚本启动hdfs集群,有可能会遇到NameNode起来一会后,进程自动关闭的问题。查看NameNode日志,报错信息如下:2020-08-17 10:11:40,658 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: hadoop104/192.168.6.104:8485. Already tried 0 time(s); retry policy is RetryU原创 2020-09-23 14:40:35 · 921 阅读 · 0 评论 -
hadoop的NameNode故障处理
NameNode故障后,可以采用如下两种方法恢复数据。+1)将SecondaryNameNode中数据拷贝到NameNode存储数据的目录;(1)kill -9 NameNode进程(2)删除NameNode存储的数据(/opt/module/hadoop-3.1.3/data/tmp/dfs/name)[user1@hadoop102 hadoop-3.1.3]$ rm -rf /opt/module/hadoop-3.1.3/data/dfs/name/*(3)拷贝SecondaryName原创 2020-09-23 11:58:48 · 598 阅读 · 0 评论 -
MapReduce常用优化方法
MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。1.数据输入输入大量的小文件会造成性能变差。解决方法:1)采用CombineTextInputFormat作为输入格式化,将小文件整合成大文件;2)在进行程序之后,先跑一次MapReduce将文件整合成一个文件3)打开jvm复用模式也能提高处理小文件的性能。2.Map阶段优化1)减少溢写(spill)次数:通过调整mapreduce.task.io.sort.mb及ma原创 2020-08-21 18:48:44 · 767 阅读 · 0 评论 -
hadoop中使用到的压缩配置信息
五种压缩格式对应的编码器DEFLATE : org.apache.hadoop.io.compress.DefaultCodecgzip : org.apache.hadoop.io.compress.GzipCodecbzip2 : org.apache.hadoop.io.compress.BZip2CodecLZO : com.hadoop.compression.lzo.LzopCodecSnappy : org.apache.hadoop.io.compress.SnappyCode原创 2020-08-14 20:16:54 · 252 阅读 · 0 评论 -
yarn添加多队列容量调度器的配置文件
查找hadoop安装目录下的etc/hadoop/capacity-scheduler.xml文件,修改如下配置<!-- 指定多队列,增加hive队列 --><property> <name>yarn.scheduler.capacity.root.queues</name> <value>default,hive</value> <description> The queues at原创 2020-08-14 20:06:09 · 505 阅读 · 0 评论 -
hadoop原理记录-MapReduce
MapReduce概述MapReduce是一个分布式运算程序的编程框架,MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。MapReduce优缺点优点1)MapReduce 易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行。2)良好的扩展性原创 2020-08-13 10:48:40 · 467 阅读 · 0 评论 -
hadoop原理记录-HDFS读写数据
HDFS读数据流程1.客户端请求下载文件客户端通过DistributedFileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。2.返回目标文件的元数据挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。3.客户端请求读数据block1DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。4.传输数据客户端以Packet为单位接收,先在本地缓存,然后写入目标文件。H原创 2020-08-12 20:19:12 · 170 阅读 · 0 评论