Hadoop
xiaoxaoyu
小小鱼
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
log4j简单配置_备忘
1、正常配置 ### 设置### log4j.rootLogger = debug,D,E ### 输出DEBUG 级别以上的日志到=E://logs/debug.log ### log4j.appender.D = org.apache.log4j.DailyRollingFileAppender log4j.appender.D.File = D://logs/debug.log log4j.appender.D.Append = true log4j.appender.D.Threshold = D原创 2021-05-03 14:43:29 · 195 阅读 · 0 评论 -
IDEA配置scala、spark环境
1、安装IDEA后,如何配置scala环境? 首先打开IDEA–>plugins设置–>install Plugin from disk–>把idea-scala插件的压缩包导入,重启idea即可 2、IDEA连接hadoop怎么做? 直接把虚拟机下的hadoop打包传出来,解压到windows下,如果spark直接读hdfs文件的话,会报“Could not locate executable null\bin\winutils.exe in the Hadoop binaries原创 2021-03-06 18:36:04 · 467 阅读 · 0 评论 -
Hadoop生态圈API操作汇总
Hive-JDBC流程 Spark SQL集成Hive和MySQL HBase-API操作流程 HDFS的Java API 操作原创 2021-01-11 23:31:50 · 190 阅读 · 0 评论 -
Hadoop的容错机制
技术层面:副本-yarn-zookeeper 容错规模:文件-DataNode文件块-任务-AppMaster-NameNode 副本原创 2020-12-21 09:50:12 · 1000 阅读 · 0 评论 -
hadoop概念07-MapReduce优缺点、流程、任务数设置、Join
MapReduce流程、任务数设置 一、MapReduce中combiner和partitioner的作用 Combiner:Map端按key聚合,以减少Reducer提取数据的传输负载 Partitioner:如果ReduceTask>1,Partitioner决定键值进入哪个Reducer 二、MapReduce的整体流程 1、XxxInputformat获取InputSplit[]和RecordReader 并发启动MapTask(一个InputSplit一个MapTask) 2、Map原创 2020-12-05 15:00:38 · 852 阅读 · 0 评论 -
hadoop概念06-Yarn工作流程
1、客户端提交作业,申请jobID 客户端——>ResourceManager 2、ResourceManager返回一个jobID,并将存放资源的HDFS路径返回给客户端 ResourceManager——>客户端 3、客户端把运行作业的资源上传到RM返回的HDFS路径上,上传内容为jar包、配置信息、分片信息等 客户端——>RM返回的HDFS路径 4、上传成功后,向ResourceManager发送请求,执行作业 客户端——>ResourceManager 5、R原创 2020-12-04 14:18:16 · 250 阅读 · 0 评论 -
hadoop概念05-Hadoop优化思路
MapReduce优化一、数据倾斜二、map和reduce数量设置不合理三、buffer设置不合理四、任务小文件过多:六、不可分块的超大文件七、spill次数过多八、merge次数过多九、溢出的小文件过多 一、数据倾斜 1、数据频率倾斜:maptask数据处理量差别较大,多个maptask等待一个maptask完成才能开启reduce 解决方法: 对原始数据抽样得到的结果集来预设分区边界值,把数据尽量平均分散 自定义分区 2、数据大小倾斜:reducetask处理的数据量不均衡 解决方法: 提前在ma原创 2020-12-04 09:59:06 · 211 阅读 · 0 评论 -
hadoop概念04-HDFS的Java API 操作(辅助理解HDFS的流程)
HDFS常见的Java API 操作 1.HDFS 文件上传(通过副本系数的设置测试参数优先级) 参数优先级排序依次降低:客户端代码中设置的值,classpath 下的用户自 定义配置文件,然后是服务器的默认配置。 @Test public void testCopyFromLocalFile() throws URISyntaxException, IOException, InterruptedException { // 1 获取文件系统 Configurati原创 2020-12-03 21:12:35 · 399 阅读 · 0 评论 -
hadoop概念03-MR编程规范、序列化简介和注意事项
目录一、MapReduce的编码规范二、传输类型序列化三、自定义序列化四、Driver提交任务代码 一、MapReduce的编码规范 1、键值对输入输出 继承Mapper和Reducer的子类的入口和出口都是键值对 2、Mapper端 入口键值对为切片的行偏移量和行内容,一行内容就是一个Mapper对象; 在Mapper对象里的map()方法中将行的内容解析成N个新的键值对输出; 3、Reducer端 Reducer端从所有的Mapper端获取属于该分区的键值并根据键group分组,一个分组一个R原创 2020-12-03 18:36:32 · 427 阅读 · 0 评论 -
hadoop概念02-读写流程
读: 1、client 请求:通过DFS向NN请求(确定源文件已存在) 文件的读写都是通过DFS来实现的,首先要创建一个DFS对象 怎么创建? 2、NN 确认:目录存在、用户没有操作权限 return false,否则return true 是一个验证的过程,可不可以传 3、client 切分并请求第一个Block DN client将文件且成n个128M的Block 向谁请求:client向NN请求第1个Block的存储DN列表 4、NN 返回DN列表:加入返回dn1dn2dn3 5、client 写入.原创 2020-12-03 18:36:39 · 276 阅读 · 0 评论 -
hadoop概念01-HDFS优缺点、架构、环境搭建流程
一、HDFS优缺点 1、优点: 1、高容错性: 2、数据量大: 3、流式访问: 4、扩展成本低: 2、缺点 1、不适合低延时:IO操作频繁 2、不可以并发:没有事务,没有锁机制 3、不实用数据量小的文件:占空间(一个文件块block默认128M),寻址慢(数据分布在多个NN节点上) 二、HDFS架构及各角色的作用 1、client:客户端 决定切块的大小、副本的数量。可以通过linux windows命令,也可以通过java、scala、pathon等操作 2、NameNode: 元数据节点,负责处理客户端原创 2020-12-03 18:36:46 · 563 阅读 · 0 评论 -
hive启MapReduce失败
hive启MapReduce失败 一、首先排查hadoop日志IP:50070/logs/ 1.如果NN或SNN日志异常,一般需要重新格式化NN,删除tmp文件(就是删除镜像文件和日志文件,name里放的是edit_log和fsimage,data是数据文件,日志后面的时间戳和数据文件的时间戳对不上了就会出错,删除之后里面的文件都没了,并且权限也恢复为默认的) 2.然后进入sbin/hdfs namenode -format格式化 3.授权:hdfs dfs -chmod -R 777 / 4.重新启动服务原创 2020-11-13 11:41:19 · 954 阅读 · 0 评论 -
MapReduce通俗语言讲述运行原理
问题:MapReduce是做什么的?MR的过程是怎样的? @[TOC]MapReduce简介 JOB 解决一个问题,任务名字叫WordCount 做这个任务,要先把文件上传到HDFS里 上传文件(写数据) 主要组件 NameNode SecondaryNameNode yarn:ResourceManager yarn是一个概念名词,映射进来就是RM 和DataNode上的NodeManager始终保持联系 DataNode 文件不备份在同一节点上 客户端向yarn请求上传文件,yarn查看一个包含各个节点原创 2020-11-11 22:37:05 · 156 阅读 · 0 评论
分享