
Hadoop
xiaoxaoyu
小小鱼
展开
-
log4j简单配置_备忘
1、正常配置### 设置###log4j.rootLogger = debug,D,E### 输出DEBUG 级别以上的日志到=E://logs/debug.log ###log4j.appender.D = org.apache.log4j.DailyRollingFileAppenderlog4j.appender.D.File = D://logs/debug.loglog4j.appender.D.Append = truelog4j.appender.D.Threshold = D原创 2021-05-03 14:43:29 · 163 阅读 · 0 评论 -
IDEA配置scala、spark环境
1、安装IDEA后,如何配置scala环境?首先打开IDEA–>plugins设置–>install Plugin from disk–>把idea-scala插件的压缩包导入,重启idea即可2、IDEA连接hadoop怎么做?直接把虚拟机下的hadoop打包传出来,解压到windows下,如果spark直接读hdfs文件的话,会报“Could not locate executable null\bin\winutils.exe in the Hadoop binaries原创 2021-03-06 18:36:04 · 434 阅读 · 0 评论 -
Hadoop生态圈API操作汇总
Hive-JDBC流程Spark SQL集成Hive和MySQLHBase-API操作流程HDFS的Java API 操作原创 2021-01-11 23:31:50 · 161 阅读 · 0 评论 -
Hadoop的容错机制
技术层面:副本-yarn-zookeeper容错规模:文件-DataNode文件块-任务-AppMaster-NameNode副本原创 2020-12-21 09:50:12 · 923 阅读 · 0 评论 -
hadoop概念07-MapReduce优缺点、流程、任务数设置、Join
MapReduce流程、任务数设置一、MapReduce中combiner和partitioner的作用Combiner:Map端按key聚合,以减少Reducer提取数据的传输负载Partitioner:如果ReduceTask>1,Partitioner决定键值进入哪个Reducer二、MapReduce的整体流程1、XxxInputformat获取InputSplit[]和RecordReader并发启动MapTask(一个InputSplit一个MapTask)2、Map原创 2020-12-05 15:00:38 · 786 阅读 · 0 评论 -
hadoop概念06-Yarn工作流程
1、客户端提交作业,申请jobID客户端——>ResourceManager2、ResourceManager返回一个jobID,并将存放资源的HDFS路径返回给客户端ResourceManager——>客户端3、客户端把运行作业的资源上传到RM返回的HDFS路径上,上传内容为jar包、配置信息、分片信息等客户端——>RM返回的HDFS路径4、上传成功后,向ResourceManager发送请求,执行作业客户端——>ResourceManager5、R原创 2020-12-04 14:18:16 · 221 阅读 · 0 评论 -
hadoop概念05-Hadoop优化思路
MapReduce优化一、数据倾斜二、map和reduce数量设置不合理三、buffer设置不合理四、任务小文件过多:六、不可分块的超大文件七、spill次数过多八、merge次数过多九、溢出的小文件过多一、数据倾斜1、数据频率倾斜:maptask数据处理量差别较大,多个maptask等待一个maptask完成才能开启reduce解决方法:对原始数据抽样得到的结果集来预设分区边界值,把数据尽量平均分散自定义分区2、数据大小倾斜:reducetask处理的数据量不均衡解决方法:提前在ma原创 2020-12-04 09:59:06 · 180 阅读 · 0 评论 -
hadoop概念04-HDFS的Java API 操作(辅助理解HDFS的流程)
HDFS常见的Java API 操作1.HDFS 文件上传(通过副本系数的设置测试参数优先级)参数优先级排序依次降低:客户端代码中设置的值,classpath 下的用户自 定义配置文件,然后是服务器的默认配置。 @Test public void testCopyFromLocalFile() throws URISyntaxException, IOException, InterruptedException { // 1 获取文件系统 Configurati原创 2020-12-03 21:12:35 · 345 阅读 · 0 评论 -
hadoop概念03-MR编程规范、序列化简介和注意事项
目录一、MapReduce的编码规范二、传输类型序列化三、自定义序列化四、Driver提交任务代码一、MapReduce的编码规范1、键值对输入输出继承Mapper和Reducer的子类的入口和出口都是键值对2、Mapper端入口键值对为切片的行偏移量和行内容,一行内容就是一个Mapper对象;在Mapper对象里的map()方法中将行的内容解析成N个新的键值对输出;3、Reducer端Reducer端从所有的Mapper端获取属于该分区的键值并根据键group分组,一个分组一个R原创 2020-12-03 18:36:32 · 390 阅读 · 0 评论 -
hadoop概念02-读写流程
读:1、client 请求:通过DFS向NN请求(确定源文件已存在)文件的读写都是通过DFS来实现的,首先要创建一个DFS对象怎么创建?2、NN 确认:目录存在、用户没有操作权限 return false,否则return true是一个验证的过程,可不可以传3、client 切分并请求第一个Block DNclient将文件且成n个128M的Block向谁请求:client向NN请求第1个Block的存储DN列表4、NN 返回DN列表:加入返回dn1dn2dn35、client 写入.原创 2020-12-03 18:36:39 · 246 阅读 · 0 评论 -
hadoop概念01-HDFS优缺点、架构、环境搭建流程
一、HDFS优缺点1、优点:1、高容错性:2、数据量大:3、流式访问:4、扩展成本低:2、缺点1、不适合低延时:IO操作频繁2、不可以并发:没有事务,没有锁机制3、不实用数据量小的文件:占空间(一个文件块block默认128M),寻址慢(数据分布在多个NN节点上)二、HDFS架构及各角色的作用1、client:客户端决定切块的大小、副本的数量。可以通过linux windows命令,也可以通过java、scala、pathon等操作2、NameNode:元数据节点,负责处理客户端原创 2020-12-03 18:36:46 · 472 阅读 · 0 评论 -
hive启MapReduce失败
hive启MapReduce失败一、首先排查hadoop日志IP:50070/logs/1.如果NN或SNN日志异常,一般需要重新格式化NN,删除tmp文件(就是删除镜像文件和日志文件,name里放的是edit_log和fsimage,data是数据文件,日志后面的时间戳和数据文件的时间戳对不上了就会出错,删除之后里面的文件都没了,并且权限也恢复为默认的)2.然后进入sbin/hdfs namenode -format格式化3.授权:hdfs dfs -chmod -R 777 /4.重新启动服务原创 2020-11-13 11:41:19 · 864 阅读 · 0 评论 -
MapReduce通俗语言讲述运行原理
问题:MapReduce是做什么的?MR的过程是怎样的?@[TOC]MapReduce简介JOB解决一个问题,任务名字叫WordCount做这个任务,要先把文件上传到HDFS里上传文件(写数据)主要组件NameNodeSecondaryNameNodeyarn:ResourceManageryarn是一个概念名词,映射进来就是RM和DataNode上的NodeManager始终保持联系DataNode文件不备份在同一节点上客户端向yarn请求上传文件,yarn查看一个包含各个节点原创 2020-11-11 22:37:05 · 124 阅读 · 0 评论